このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240511となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# QMViT: Mushroomは16x16ワード
QMViT: A Mushroom is worth 16x16 Words ( http://arxiv.org/abs/2407.04708v1 ) ライセンス: Link先を確認 | Siddhant Dutta, Hemant Singh, Kalpita Shankhdhar, Sridhar Iyer, | (参考訳) 有毒キノコを摂取すると、深刻な健康上の影響を受け、致命傷を負い、有毒キノコの品種と正確に区別することは、食品の安全性を確保する上で重要な課題である。
そのため、既存の種の中では食用キノコと有毒キノコを区別することが重要です。
これは、人々の毎日の食事におけるキノコのかなりの需要と、医療科学への潜在的貢献のために不可欠である。
本研究は,キノコ分類性能を向上させるために量子コンピューティングを活用する新しい量子ビジョントランスフォーマーアーキテクチャを提案する。
変分量子回路を用いた特殊量子自己保持機構を実装することにより、提案されたアーキテクチャは、それぞれカテゴリと適応性に基づいて92.33%と99.24%の精度を達成した。
このことは、有害キノコの偽陰性を低減し、食品の安全性を確保するために提案されたアーキテクチャの成功を示す。
本研究は,キノコの分類におけるQMViTの可能性を明らかにするものである。
Consuming poisonous mushrooms can have severe health consequences, even resulting in fatality and accurately distinguishing edible from toxic mushroom varieties remains a significant challenge in ensuring food safety. So, it's crucial to distinguish between edible and poisonous mushrooms within the existing species. This is essential due to the significant demand for mushrooms in people's daily meals and their potential contributions to medical science. This work presents a novel Quantum Vision Transformer architecture that leverages quantum computing to enhance mushroom classification performance. By implementing specialized quantum self-attention mechanisms using Variational Quantum Circuits, the proposed architecture achieved 92.33% and 99.24% accuracy based on their category and their edibility respectively. This demonstrates the success of the proposed architecture in reducing false negatives for toxic mushrooms, thus ensuring food safety. Our research highlights the potential of QMViT for improving mushroom classification as a whole. | 翻訳日:2024-07-22 16:25:52 公開日:2024-05-11 |
# AI法のロバストガバナンス:AIオフィス、AIボード、科学パネル、国家機関
A Robust Governance for the AI Act: AI Office, AI Board, Scientific Panel, and National Authorities ( http://arxiv.org/abs/2407.10369v1 ) ライセンス: Link先を確認 | Claudio Novelli, Philipp Hacker, Jessica Morley, Jarle Trondal, Luciano Floridi, | (参考訳) 規制は施行なしでは何もない。
これは特に新興技術のダイナミックな分野に当てはまる。
したがって、この記事には2つの野望がある。
まず、EUの新しい人工知能法(AIA)が様々な機関によってどのように実施され、施行されるかを説明し、AIAのガバナンスの枠組みを明確にする。
第2に、AIAの均一かつ協調的な実行と法律の充足を保証するための勧告を提供する、規範的なガバナンスモデルを提案する。
この記事は、欧州委員会のような長年の機関やAI OfficeのようなAIAが新たに設立した機関を含む、各国とEUの機関がAIAをどのように実施するかを考察する。
欧州連合の規制が制度構造や運営にどのように影響するかを強調し、超国家的、国家的レベルの役割について調査している。
これらの規則は、機関の構造設計を直接規定するだけでなく、AIAの施行に必要な管理能力も間接的に要求する。
Regulation is nothing without enforcement. This particularly holds for the dynamic field of emerging technologies. Hence, this article has two ambitions. First, it explains how the EU's new Artificial Intelligence Act (AIA) will be implemented and enforced by various institutional bodies, thus clarifying the governance framework of the AIA. Second, it proposes a normative model of governance, providing recommendations to ensure uniform and coordinated execution of the AIA and the fulfilment of the legislation. Taken together, the article explores how the AIA may be implemented by national and EU institutional bodies, encompassing longstanding bodies, such as the European Commission, and those newly established under the AIA, such as the AI Office. It investigates their roles across supranational and national levels, emphasizing how EU regulations influence institutional structures and operations. These regulations may not only directly dictate the structural design of institutions but also indirectly request administrative capacities needed to enforce the AIA. | 翻訳日:2024-07-22 12:49:16 公開日:2024-05-11 |
# サイレントカリキュラム:LLMモノカルチャーは教育内容とアクセシビリティをどう形作るか?
The Silent Curriculum: How Does LLM Monoculture Shape Educational Content and Its Accessibility? ( http://arxiv.org/abs/2407.10371v1 ) ライセンス: Link先を確認 | Aman Priyanshu, Supriti Vijay, | (参考訳) LLM(Large Language Models)が普及し、従来の検索エンジンに比べて前例のない便利な情報を提供するにつれ、新たな特異な視点が普及しつつあるという興味深い可能性を探る。
私たちはこれを「サイレントカリキュラム(Silent Curriculum)」と呼び、特に印象的な人口統計学に焦点を移す。
本研究では, LLMの社会文化的影響を解明し, その微妙な応答を通じて, アルゴリズム的あるいはAI的なモノカルチャーである, 自作のステレオタイプを微妙にエッチングしている可能性がある。
我々は、事前学習データ、微調整データセット、および類似のガードレールの収束が、異なる文化的レンズを生み出した可能性があると仮定する。
この概念を、子どものストーリーテリング、職業性偏見、自己診断アノテーションをナビゲートする短い実験を通じて解き、これらのモデルに強いコサイン類似性(0.87)があることを発見し、職業における民族的ステレオタイプに関する同様の見解を示唆する。
本稿では,LLMの社会的役割,特に新しい情報ゲートキーパーの役割を再考し,意図しないモノカルチャーよりも多様性に富んだ風景へのパラダイムシフトを提唱する。
As Large Language Models (LLMs) ascend in popularity, offering information with unprecedented convenience compared to traditional search engines, we delve into the intriguing possibility that a new, singular perspective is being propagated. We call this the "Silent Curriculum," where our focus shifts towards a particularly impressionable demographic: children, who are drawn to the ease and immediacy of acquiring knowledge through these digital oracles. In this exploration, we delve into the sociocultural ramifications of LLMs, which, through their nuanced responses, may be subtly etching their own stereotypes, an algorithmic or AI monoculture. We hypothesize that the convergence of pre-training data, fine-tuning datasets, and analogous guardrails across models may have birthed a distinct cultural lens. We unpack this concept through a short experiment navigating children's storytelling, occupational-ethnic biases, and self-diagnosed annotations, to find that there exists strong cosine similarity (0.87) of biases across these models, suggesting a similar perspective of ethnic stereotypes in occupations. This paper invites a reimagining of LLMs' societal role, especially as the new information gatekeepers, advocating for a paradigm shift towards diversity-rich landscapes over unintended monocultures. | 翻訳日:2024-07-22 12:49:16 公開日:2024-05-11 |
# 拡散モデルを用いたプロンプト誘導精密オーディオ編集
Prompt-guided Precise Audio Editing with Diffusion Models ( http://arxiv.org/abs/2406.04350v1 ) ライセンス: Link先を確認 | Manjie Xu, Chenxing Li, Duzhen zhang, Dan Su, Wei Liang, Dong Yu, | (参考訳) オーディオ編集は、正確な制御によるオーディオコンテンツの任意の操作を含む。
テキスト誘導拡散モデルは、テキストからオーディオへの生成において大きな進歩を遂げてきたが、オーディオトラック内のターゲットイベントを柔軟かつ正確に修正する方法を見つけるという課題に直面している。
本稿では,拡散モデルの汎用モジュールとして機能し,正確な音声編集を可能にするPPAEという新しい手法を提案する。
編集は入力テキストプロンプトのみに基づいており、完全にトレーニング不要である。
拡散モデルの相互アテンションマップを利用して、正確な局所的な編集を容易にし、階層的な局所的なパイプラインを用いてよりスムーズな編集プロセスを実現する。
各種編集作業における本手法の有効性を実験的に明らかにした。
Audio editing involves the arbitrary manipulation of audio content through precise control. Although text-guided diffusion models have made significant advancements in text-to-audio generation, they still face challenges in finding a flexible and precise way to modify target events within an audio track. We present a novel approach, referred to as PPAE, which serves as a general module for diffusion models and enables precise audio editing. The editing is based on the input textual prompt only and is entirely training-free. We exploit the cross-attention maps of diffusion models to facilitate accurate local editing and employ a hierarchical local-global pipeline to ensure a smoother editing process. Experimental results highlight the effectiveness of our method in various editing tasks. | 翻訳日:2024-07-01 08:10:07 公開日:2024-05-11 |
# 衛星インターネットインフラにおけるリスク評価と緩和戦略のサイバー脅威景観解析
Cyber Threat Landscape Analysis for Starlink Assessing Risks and Mitigation Strategies in the Global Satellite Internet Infrastructure ( http://arxiv.org/abs/2406.07562v1 ) ライセンス: Link先を確認 | Karwan Mustafa Kareem, | (参考訳) 衛星インターネットネットワークは、現代のデジタルランドスケープに欠かせない要素として登場し、世界最遠の角にも接続を拡大することを約束している。
これらのネットワークの中で、SpaceXの先駆者であるStarlinkは、世界規模で高速インターネットアクセスを提供するという野心的なミッションで大きな注目を集めている。
しかし、衛星インフラの普及は、これらのネットワークが重要な通信やデータ交換にますます不可欠になるにつれて、サイバーセキュリティの課題の無数の前線にもつながる。
この研究は、Starlinkを取り巻くサイバーセキュリティの環境を包括的に分析し、潜在的な脅威を特定し、関連するリスクを評価し、ネットワークのレジリエンスを高めるための緩和戦略を提案する。
本研究は,既存の文献の探索,Starlinkのシステムアーキテクチャの検証,衛星インターネットネットワークが直面する現在のサイバー脅威の状況の分析を通じて,地球規模の衛星インターネットインフラの運用に内在するサイバーセキュリティの課題に関する貴重な洞察を提供することを目的とする。
本研究は、リスクの優先順位付けと効果的な緩和戦略の提案により、衛星インターネット接続の完全性とアクセス性を保護するための継続的な取り組みに貢献することを目的とする。
Satellite internet networks have emerged as indispensable components of the modern digital landscape, promising to extend connectivity to even the most remote corners of the globe. Among these networks, Starlink, pioneered by SpaceX, has garnered significant attention for its ambitious mission to provide high-speed internet access on a global scale. However, the proliferation of satellite infrastructure also brings to the forefront a myriad of cybersecurity challenges, as these networks become increasingly vital for critical communication and data exchange. This research endeavours to conduct a comprehensive analysis of the cybersecurity landscape surrounding Starlink, with a focus on identifying potential threats, assessing associated risks, and proposing mitigation strategies to bolster the resilience of the network. Through an exploration of existing literature, an examination of the system architecture of Starlink, and an analysis of the current cyber threat landscape facing satellite internet networks, this study aims to provide valuable insights into the cybersecurity challenges inherent in the operation of global satellite internet infrastructure. By prioritizing risks and proposing effective mitigation strategies, this research seeks to contribute to the ongoing efforts to safeguard the integrity and accessibility of satellite-based internet connectivity. | 翻訳日:2024-07-01 07:50:27 公開日:2024-05-11 |
# 匿名のガーディアン:オニオンルーティング環境におけるサイバー脅威に対処するための戦術を探る
Guardians of Anonymity: Exploring Tactics to Combat Cyber Threats in Onion Routing Environments ( http://arxiv.org/abs/2406.07563v1 ) ライセンス: Link先を確認 | Karwan Mustafa Kareem, | (参考訳) ダークネット(ダークネット、英: darknets)は、インターネット上の匿名通信を可能にするプライベートネットワークである。
個人のプライバシーを守るために個人や組織が使用するが、これらのネットワークが提供する匿名性を利用して違法な活動を行うサイバー犯罪者も惹きつける。
本稿では,オニオンルーティングネットワークにおけるサイバー犯罪の脅威と対策を包括的に分析する。
薬物密売、詐欺、ハッキング、その他の違法行為など、これらのネットワークで発生する様々なサイバー犯罪についてレビューする。
次に,オニオンルーティングネットワークにおけるサイバー犯罪の検出と緩和に関わる課題について論じる。
また,オニオンルーティングネットワークにおけるサイバー犯罪対策として提案され,実施されている対策として,法執行機関の取り組み,技術ソリューション,政策介入等について検討する。
最後に,既存の対策の限界を強調し,技術,法的,社会的視点を組み合わせた学際的アプローチの必要性や,オニオンルーティングネットワークにおけるサイバー犯罪と効果的に戦うことの必要性など,今後の研究の方向性を明らかにする。
Onion routing networks, also known as darknets, are private networks that enable anonymous communication over the Internet. They are used by individuals and organizations to protect their privacy, but they also attract cybercriminals who exploit the anonymity provided by these networks for illegal activities. This paper comprehensively analyzes cybercrime threats and countermeasures in onion routing networks. We review the various types of cybercrime that occur in these networks, including drug trafficking, fraud, hacking, and other illicit activities. We then discuss the challenges associated with detecting and mitigating cybercrime in onion routing networks, such as the difficulty of tracing illegal activities back to their source due to the strong anonymity guarantees provided by these networks. We also explore the countermeasures that have been proposed and implemented to combat cybercrime in onion routing networks, including law enforcement efforts, technological solutions, and policy interventions. Finally, we highlight the limitations of existing countermeasures and identify potential directions for future research in this area, including the need for interdisciplinary approaches that combine technical, legal, and social perspectives to effectively combat cybercrime in onion routing networks. | 翻訳日:2024-07-01 07:50:27 公開日:2024-05-11 |
# 生物学的質問を用いた大規模言語モデルの推論能力とアクセシビリティに関する調査
Survey on Reasoning Capabilities and Accessibility of Large Language Models Using Biology-related Questions ( http://arxiv.org/abs/2406.16891v1 ) ライセンス: Link先を確認 | Michael Ackerman, | (参考訳) 本研究は, バイオメディシンおよび大規模言語モデルにおける過去10年間の進歩について論じる。
また, 生物医学への自然言語処理技術とツールの統合についても検討した。
最後に、この論文の目的は、昨年(2023年)に行われた調査を拡大し、上位2つの言語モデルに対する新しい質問リストとプロンプトを導入することである。
本稿では,LLMにおける推論能力の向上と,それらの改善が平均的ユーザによってどの程度感じられるかについて,定量的に検討する。
さらに,本論文は, LLM に対して, オープンエンド質問への回答を深く促すことにより, 生物学的文献の検索に関する研究を拡充することを目的としている。
This research paper discusses the advances made in the past decade in biomedicine and Large Language Models. To understand how the advances have been made hand-in-hand with one another, the paper also discusses the integration of Natural Language Processing techniques and tools into biomedicine. Finally, the goal of this paper is to expand on a survey conducted last year (2023) by introducing a new list of questions and prompts for the top two language models. Through this survey, this paper seeks to quantify the improvement made in the reasoning abilities in LLMs and to what extent those improvements are felt by the average user. Additionally, this paper seeks to extend research on retrieval of biological literature by prompting the LLM to answer open-ended questions in great depth. | 翻訳日:2024-07-01 06:51:29 公開日:2024-05-11 |
# RAGE Against the Machine: Retrieval-Augmented LLM Explanations
RAGE Against the Machine: Retrieval-Augmented LLM Explanations ( http://arxiv.org/abs/2405.13000v1 ) ライセンス: Link先を確認 | Joel Rorseth, Parke Godfrey, Lukasz Golab, Divesh Srivastava, Jaroslaw Szlichta, | (参考訳) 本稿では,Large Language Models(LLM)を検索機能に付加した対話型ツールであるRAGEについて紹介する。
我々の説明は、入力コンテキストの一部を特定するという意味で、LLMに対する質問に対する回答を変更するという意味では非現実的である。
RAGEには、考えられる説明の広大な空間をナビゲートするプルーニングメソッドが含まれており、ユーザは生成された回答の成果を見ることができる。
This paper demonstrates RAGE, an interactive tool for explaining Large Language Models (LLMs) augmented with retrieval capabilities; i.e., able to query external sources and pull relevant information into their input context. Our explanations are counterfactual in the sense that they identify parts of the input context that, when removed, change the answer to the question posed to the LLM. RAGE includes pruning methods to navigate the vast space of possible explanations, allowing users to view the provenance of the produced answers. | 翻訳日:2024-05-27 03:08:05 公開日:2024-05-11 |
# 2つの反射体を解き放つ最適なレーダーラグングパルス
The Best Radar Ranging Pulse to Resolve Two Reflectors ( http://arxiv.org/abs/2405.09571v1 ) ライセンス: Link先を確認 | Andrew N. Jordan, John C. Howell, Achim Kempf, Shunxing Zhang, Derek White, | (参考訳) 以前の研究は、超レーダー(Phys. Appl. 20, 064046 (2023))と呼ばれるレーダーレンジ分解能問題に対するサブ波長分解能の基礎的境界を確立した。
本研究では,同じ強度の2つの反射体間の距離分解能を識別するための最適波形を同定する。
我々は、非正規化された最適波形と、最良の2乗可積分パルスとその変種について論じる。
直交関数理論を用いて、有限時間で波形パルスを最適化し、最高の性能を得るための明示的なアルゴリズムを与える。
また,複数パラメータ法による非正規化波形を用いた範囲分解能推定についても検討し,到達時間と損失を独立に推定する。
これらの結果は、レンジ分解能の以前の単一パラメータアプローチと一致し、レンジ推定問題についてより深い洞察を与える。
実験の結果,同軸ケーブル内部の電波パルス反射を用いて,逆バンドエッジの10分の1よりも頑健な範囲分解能を示し,Clam\'er-Rao境界に近い不確実性を示した。
Previous work established fundamental bounds on subwavelength resolution for the radar range resolution problem, called superradar [Phys. Rev. Appl. 20, 064046 (2023)]. In this work, we identify the optimal waveforms for distinguishing the range resolution between two reflectors of identical strength. We discuss both the unnormalized optimal waveform as well as the best square-integrable pulse, and their variants. Using orthogonal function theory, we give an explicit algorithm to optimize the wave pulse in finite time to have the best performance. We also explore range resolution estimation with unnormalized waveforms with multi-parameter methods to also independently estimate loss and time of arrival. These results are consistent with the earlier single parameter approach of range resolution only and give deeper insight into the ranging estimation problem. Experimental results are presented using radio pulse reflections inside coaxial cables, showing robust range resolution smaller than a tenth of the inverse bandedge, with uncertainties close to the derived Cram\'er-Rao bound. | 翻訳日:2024-05-17 18:06:04 公開日:2024-05-11 |
# クロスU統計を用いた次元非依存推論
Dimension-agnostic inference using cross U-statistics ( http://arxiv.org/abs/2011.05068v7 ) ライセンス: Link先を確認 | Ilmun Kim, Aaditya Ramdas, | (参考訳) 統計的推論に対する古典的な漸近理論は、通常、次元$d$を固定し、サンプルサイズ$n$を無限大に増やすことで統計学を校正する。
最近、これらのメソッドが高次元設定でどのように振る舞うかを理解するために多くの努力が払われており、$d$と$n$は共に無限大へと増加する。
これはしばしば、次元に関する仮定によって異なる推論手順をもたらし、実践者はバインドに残される: 20次元に100のサンプルを持つデータセットが与えられたら、$n \gg d$、または$d/n \approx 0.2$を仮定してキャリブレーションすべきだろうか?
本稿では、次元に依存しない推論の目的を考察し、$d$対$n$の仮定に依存しない方法を開発する。
サンプル分割と自己正規化とともに既存のテスト統計の変動表現を用いて、$d$が$n$でスケールするかどうかに関わらず、ガウス極限分布を持つ洗練されたテスト統計値を生成するアプローチを導入する。
結果の統計学は、縮退したU統計を慎重に修正し、対角ブロックを落とし、対角ブロックを外したままにすると見なすことができる。
我々は,一サンプル平均値と共分散テストを含む古典的な問題に対して,本手法を例示し,本試験が局所的代替品に対して最小の速度最適化力を有することを示す。
ほとんどの設定では、我々の交差U統計は対応する(退化)U統計の高次元のパワーと$\sqrt{2}$因子と一致する。
Classical asymptotic theory for statistical inference usually involves calibrating a statistic by fixing the dimension $d$ while letting the sample size $n$ increase to infinity. Recently, much effort has been dedicated towards understanding how these methods behave in high-dimensional settings, where $d$ and $n$ both increase to infinity together. This often leads to different inference procedures, depending on the assumptions about the dimensionality, leaving the practitioner in a bind: given a dataset with 100 samples in 20 dimensions, should they calibrate by assuming $n \gg d$, or $d/n \approx 0.2$? This paper considers the goal of dimension-agnostic inference; developing methods whose validity does not depend on any assumption on $d$ versus $n$. We introduce an approach that uses variational representations of existing test statistics along with sample splitting and self-normalization to produce a refined test statistic with a Gaussian limiting distribution, regardless of how $d$ scales with $n$. The resulting statistic can be viewed as a careful modification of degenerate U-statistics, dropping diagonal blocks and retaining off-diagonal blocks. We exemplify our technique for some classical problems including one-sample mean and covariance testing, and show that our tests have minimax rate-optimal power against appropriate local alternatives. In most settings, our cross U-statistic matches the high-dimensional power of the corresponding (degenerate) U-statistic up to a $\sqrt{2}$ factor. | 翻訳日:2024-05-16 22:33:52 公開日:2024-05-11 |
# CTRL:時間的不均一情報ネットワークを用いた連続時間表現学習
CTRL: Continuous-Time Representation Learning on Temporal Heterogeneous Information Network ( http://arxiv.org/abs/2405.08013v1 ) ライセンス: Link先を確認 | Chenglin Li, Yuanzhen Xie, Chenyun Yu, Lei Cheng, Bo Hu, Zang Li, Di Niu, | (参考訳) テンポラルヘテロジニアスグラフ上の帰納的表現学習は、引用ネットワークのような時間変化のあるヘテロジニアス情報ネットワーク(HIN)上のスケーラブルな深層学習に不可欠である。
しかし、既存のアプローチのほとんどは帰納的ではないため、新しいノードやエッジは扱えない。
さらに,従来の時間グラフ埋め込み手法では,時間グラフ上の高次位相構造の進化を無視しつつ,時間グラフのリンク形成過程をシミュレートするために時間リンク予測タスクを用いて訓練されることが多い。
これらのギャップを埋めるため,時間的HINに基づく連続時間表現学習(CTRL)モデルを提案する。
不均一なノードの特徴と時間構造を維持するため、CTRLは3つの部分を単一の層に統合する。
1)ノード間の意味的相関を計測するemph{heterogeneous attention}単位
2)ヘテロジニアスノード間の時間的影響を捉えるためのemph{edge-based Hawkes process
3) ノードの動的重要性を示す \emph{dynamic centrality} 。
我々はCTRLモデルを将来の事象(サブグラフ)予測タスクで訓練し、高次ネットワーク構造の進化を捉える。
3つのベンチマークデータセットで大規模な実験が行われた。
その結果,本モデルは性能を著しく向上し,様々な最先端手法よりも優れた性能を示した。
モデル設計の有効性を示すためのアブレーション研究を行った。
Inductive representation learning on temporal heterogeneous graphs is crucial for scalable deep learning on heterogeneous information networks (HINs) which are time-varying, such as citation networks. However, most existing approaches are not inductive and thus cannot handle new nodes or edges. Moreover, previous temporal graph embedding methods are often trained with the temporal link prediction task to simulate the link formation process of temporal graphs, while ignoring the evolution of high-order topological structures on temporal graphs. To fill these gaps, we propose a Continuous-Time Representation Learning (CTRL) model on temporal HINs. To preserve heterogeneous node features and temporal structures, CTRL integrates three parts in a single layer, they are 1) a \emph{heterogeneous attention} unit that measures the semantic correlation between nodes, 2) a \emph{edge-based Hawkes process} to capture temporal influence between heterogeneous nodes, and 3) \emph{dynamic centrality} that indicates the dynamic importance of a node. We train the CTRL model with a future event (a subgraph) prediction task to capture the evolution of the high-order network structure. Extensive experiments have been conducted on three benchmark datasets. The results demonstrate that our model significantly boosts performance and outperforms various state-of-the-art approaches. Ablation studies are conducted to demonstrate the effectiveness of the model design. | 翻訳日:2024-05-15 18:12:57 公開日:2024-05-11 |
# ロボット検出システム1:フロントフォロイング
Robot Detection System 1: Front-Following ( http://arxiv.org/abs/2405.08014v1 ) ライセンス: Link先を確認 | Jinwei Lin, | (参考訳) フォアフォアフォアフォアフォアロイングは、他の2つの人間よりも技術的に実装が難しいが、フォアフォアフォアフォアロイング技術はより実用的であり、より実用的な問題を解決するためにより多くの分野に適用することができる。
フロントフォアリング技術は、バックフォアリングとサイドバイサイド技術では見つからない多くの利点がある。
本稿では,この技術の基本的かつ重要な原則と一般設計について論じる。
また、様々な斬新で特別な方法が提示され、提供される。
私たちは新しいデザインのアイデアを示すのに十分な美しい人物を使います。
我々の研究成果は2018年にオープンソース化され、本論文は研究成果の伝播粒度を拡大することを目的としている。
この論文には、このシリーズの唯一の著者であるJinwei Lin氏によるロボットデザインシステム(Robot Design System)の開始とともに、より多くのアイデアと分析が組み込まれている。
Front-following is more technically difficult to implement than the other two human following technologies, but front-following technology is more practical and can be applied in more areas to solve more practical problems. Front-following technology has many advantages not found in back-following and side-by-side technologies. In this paper, we will discuss basic and significant principles and general design idea of this technology. Besides, various of novel and special useful methods will be presented and provided. We use enough beautiful figures to display our novel design idea. Our research result is open source in 2018, and this paper is just to expand the research result propagation granularity. Abundant magic design idea are included in this paper, more idea and analyzing can sear and see other paper naming with a start of Robot Design System with Jinwei Lin, the only author of this series papers. | 翻訳日:2024-05-15 18:12:57 公開日:2024-05-11 |
# インクリメンタルディープニューラルネットワークにおけるカタストロフィックフォーミングの手法による検討
A Methodology-Oriented Study of Catastrophic Forgetting in Incremental Deep Neural Networks ( http://arxiv.org/abs/2405.08015v1 ) ライセンス: Link先を確認 | Ashutosh Kumar, Sonali Agarwal, D Jude Hemanth, | (参考訳) 人間と異なる種類の動物は、生涯を通じて知識を集め、伝達し、処理し、微調整し、情報を生成する能力を持っている。
生涯を通して学習する能力は、神経認知機構を用いた連続学習と呼ばれる。
その結果、インクリメンタル学習自律エージェントの現実的な計算システムでは、情報検索や長期記憶統合を提供する継続的学習機構も必要となる。
しかし、人工知能の主な課題は、新しいデータが直面するときの自律エージェントの漸進的な学習である。
このようなシナリオにおいて、主な関心事は破滅的忘れ(CF)、すなわち、シーケンシャルにニューラルネットワークを学習しながら、新しいデータに直面すると古いデータに不適合である。
このCF問題に対処するために、多くの研究が提案されているが、その評価メカニズムの相違により、それらの性能を比較することは極めて困難である。
ここでは、同様の評価機構を持つ全てのアルゴリズムの比較に焦点を当てる。
本稿では,(1)模範的手法,(2)記憶的手法,(3)ネットワーク的手法の3種類の漸進的学習手法を比較した。
本稿では,インクリメンタルディープニューラルネットワークにおける破滅的忘れに対する方法論指向の研究について述べる。
さらに、研究者がCFを扱うのに役立つインパクトフル手法の数学的概要も含んでいる。
Human being and different species of animals having the skills to gather, transferring knowledge, processing, fine-tune and generating information throughout their lifetime. The ability of learning throughout their lifespan is referred as continuous learning which is using neurocognition mechanism. Consequently, in real world computational system of incremental learning autonomous agents also needs such continuous learning mechanism which provide retrieval of information and long-term memory consolidation. However, the main challenge in artificial intelligence is that the incremental learning of the autonomous agent when new data confronted. In such scenarios, the main concern is catastrophic forgetting(CF), i.e., while learning the sequentially, neural network underfits the old data when it confronted with new data. To tackle this CF problem many numerous studied have been proposed, however it is very difficult to compare their performance due to dissimilarity in their evaluation mechanism. Here we focus on the comparison of all algorithms which are having similar type of evaluation mechanism. Here we are comparing three types of incremental learning methods: (1) Exemplar based methods, (2) Memory based methods, and (3) Network based method. In this survey paper, methodology oriented study for catastrophic forgetting in incremental deep neural network is addressed. Furthermore, it contains the mathematical overview of impact-full methods which can be help researchers to deal with CF. | 翻訳日:2024-05-15 18:03:09 公開日:2024-05-11 |
# 専門家の直感を定量化する:予測分析の強化を目的としたLLMによる調査者ドメイン知識のエンコード
Translating Expert Intuition into Quantifiable Features: Encode Investigator Domain Knowledge via LLM for Enhanced Predictive Analytics ( http://arxiv.org/abs/2405.08017v1 ) ライセンス: Link先を確認 | Phoebe Jing, Yijing Gao, Yuanhang Zhang, Xianlong Zeng, | (参考訳) 予測分析の領域では、調査員の曖昧なドメイン知識は、しばしば未利用のままであり、主に主観的な解釈とアドホックな意思決定に焦点が当てられている。
本稿では,大規模言語モデル(LLM)がこのギャップを埋める可能性について検討する。
我々は、LLMの自然言語理解機能を活用して、これらの赤いフラグを既存の予測モデルに容易に統合可能な構造化機能セットにエンコードするフレームワークを提案する。
一連のケーススタディを通じて、本手法が調査プロセスにおいて重要な人間の専門知識を保存するだけでなく、この知識が様々な予測タスクにまたがる影響を拡大する様子を実証する。
その結果、リスク評価と意思決定精度が大幅に向上し、高度な機械学習技術と人間の経験的知識を融合させることの価値が強調された。
この研究は、専門家の洞察が最重要である分野において、より洗練された知識駆動分析の道を開く。
In the realm of predictive analytics, the nuanced domain knowledge of investigators often remains underutilized, confined largely to subjective interpretations and ad hoc decision-making. This paper explores the potential of Large Language Models (LLMs) to bridge this gap by systematically converting investigator-derived insights into quantifiable, actionable features that enhance model performance. We present a framework that leverages LLMs' natural language understanding capabilities to encode these red flags into a structured feature set that can be readily integrated into existing predictive models. Through a series of case studies, we demonstrate how this approach not only preserves the critical human expertise within the investigative process but also scales the impact of this knowledge across various prediction tasks. The results indicate significant improvements in risk assessment and decision-making accuracy, highlighting the value of blending human experiential knowledge with advanced machine learning techniques. This study paves the way for more sophisticated, knowledge-driven analytics in fields where expert insight is paramount. | 翻訳日:2024-05-15 18:03:09 公開日:2024-05-11 |
# AdaKD:適応損失重み付けを用いたASRモデルの動的知識蒸留
AdaKD: Dynamic Knowledge Distillation of ASR models using Adaptive Loss Weighting ( http://arxiv.org/abs/2405.08019v1 ) ライセンス: Link先を確認 | Shreyan Ganguly, Roshan Nayak, Rakshith Rao, Ujan Deb, Prathosh AP, | (参考訳) 知識蒸留は、複雑な教師モデルから軽量の学生モデルへの知識の伝達に基づく、広く使われているモデル圧縮技術である。
この技術は、タスク特定と知識蒸留の損失を、それらに割り当てられた重量で共同最適化することを含む。
これらの重みは蒸留プロセスの性能において重要な役割を担っているが、現在の方法は双方の損失に等しく重みを与え、最適以下の性能をもたらす。
本稿では,カリキュラム学習にヒントを得た新しい手法であるAdaptive Knowledge Distillationを提案し,事例レベルでの損失を適応的に評価する。
この手法は、教師の損失によってサンプルの難易度が増加するという概念によって成り立っている。
提案手法は,任意のタスク固有および蒸留目的に対して適用可能なプラグアンドプレイパラダイムに従っている。
実験により,本手法は従来の知識蒸留法や既存インスタンスレベルの損失関数よりも優れた性能を示した。
Knowledge distillation, a widely used model compression technique, works on the basis of transferring knowledge from a cumbersome teacher model to a lightweight student model. The technique involves jointly optimizing the task specific and knowledge distillation losses with a weight assigned to them. Despite these weights playing a crucial role in the performance of the distillation process, current methods provide equal weight to both losses, leading to suboptimal performance. In this paper, we propose Adaptive Knowledge Distillation, a novel technique inspired by curriculum learning to adaptively weigh the losses at instance level. This technique goes by the notion that sample difficulty increases with teacher loss. Our method follows a plug-and-play paradigm that can be applied on top of any task-specific and distillation objectives. Experiments show that our method performs better than conventional knowledge distillation method and existing instance-level loss functions. | 翻訳日:2024-05-15 18:03:09 公開日:2024-05-11 |
# ReActXGB:パフォーマンスと計算効率を向上させるハイブリッドバイナリ畳み込みニューラルネットワークアーキテクチャ
ReActXGB: A Hybrid Binary Convolutional Neural Network Architecture for Improved Performance and Computational Efficiency ( http://arxiv.org/abs/2405.08020v1 ) ライセンス: Link先を確認 | Po-Hsun Chu, Ching-Han Chen, | (参考訳) バイナリ畳み込みニューラルネットワーク(BCNN)は、ディープニューラルネットワーク(DNN)に関連するメモリ要件と計算コストを削減する潜在的なソリューションを提供する。
しかし、パフォーマンスと計算資源のトレードオフを達成することは、依然として大きな課題である。
さらに、BCNNの完全連結層は、重要な計算ボトルネックへと進化した。
これは主に、入力層と完全連結層をバイナライゼーションから排除し、精度を著しく損なうのを防ぐという慣例に起因している。
本稿では,ReActNet-Aの完全畳み込み層をXGBoostに置き換えたReActXGBというハイブリッドモデルを提案する。
この修正の目的は、より低い計算コストを維持しながら、BCNNと実数値ネットワークのパフォーマンスギャップを狭めることである。
FashionMNISTベンチマークの実験結果によると、ReActXGBは、浮動小数点演算(FLOP)の7.14%、モデルサイズ1.02%の削減とともに、トップ1の精度でReActNet-Aを1.47%上回っている。
Binary convolutional neural networks (BCNNs) provide a potential solution to reduce the memory requirements and computational costs associated with deep neural networks (DNNs). However, achieving a trade-off between performance and computational resources remains a significant challenge. Furthermore, the fully connected layer of BCNNs has evolved into a significant computational bottleneck. This is mainly due to the conventional practice of excluding the input layer and fully connected layer from binarization to prevent a substantial loss in accuracy. In this paper, we propose a hybrid model named ReActXGB, where we replace the fully convolutional layer of ReActNet-A with XGBoost. This modification targets to narrow the performance gap between BCNNs and real-valued networks while maintaining lower computational costs. Experimental results on the FashionMNIST benchmark demonstrate that ReActXGB outperforms ReActNet-A by 1.47% in top-1 accuracy, along with a reduction of 7.14% in floating-point operations (FLOPs) and 1.02% in model size. | 翻訳日:2024-05-15 18:03:09 公開日:2024-05-11 |
# DeVOS:ビデオオブジェクトセグメンテーションのためのフローガイド型変形可能なトランス
DeVOS: Flow-Guided Deformable Transformer for Video Object Segmentation ( http://arxiv.org/abs/2405.08715v1 ) ライセンス: Link先を確認 | Volodymyr Fedynyak, Yaroslav Romanus, Bohdan Hlovatskyi, Bohdan Sydor, Oles Dobosevych, Igor Babin, Roman Riazantsev, | (参考訳) ビデオオブジェクトセグメンテーションに関する最近の研究は、時間的伝搬のために、現在のフレームと以前のフレームの間に密接なセマンティクスとインスタンスレベルの特徴を一致させることによって、驚くべき結果を得た。
それでもグローバルな特徴マッチングはシーンの動作コンテキストを無視し、時間的一貫性を満たさない。
一部の手法では、滑らかな伝搬を実現するために局所マッチング分岐を導入するが、局所ウィンドウの制約により複雑な外観変化をモデル化することができない。
本稿では,映像オブジェクトセグメンテーションのアーキテクチャであるDeVOS(Deformable VOS)について述べる。
短時間の局所的伝播のために,類似検索領域をクエリ固有のセマンティックな特徴に適応させることにより,複雑な形状やスケール変化のロバストな追跡を可能にするADVA(Adaptive Deformable Video Attention)を提案する。
DeVOSは、学習可能なオフセットに対する強い先行として、さらに変形可能な注意に注入されるシーンモーション特徴を得るために、光学フローを使用する。
DAVIS 2017 val と test-dev (88.1%, 83.0%), YouTube-VOS 2019 val (86.6%) において,一貫した実行速度と安定したメモリ消費を実現した。
The recent works on Video Object Segmentation achieved remarkable results by matching dense semantic and instance-level features between the current and previous frames for long-time propagation. Nevertheless, global feature matching ignores scene motion context, failing to satisfy temporal consistency. Even though some methods introduce local matching branch to achieve smooth propagation, they fail to model complex appearance changes due to the constraints of the local window. In this paper, we present DeVOS (Deformable VOS), an architecture for Video Object Segmentation that combines memory-based matching with motion-guided propagation resulting in stable long-term modeling and strong temporal consistency. For short-term local propagation, we propose a novel attention mechanism ADVA (Adaptive Deformable Video Attention), allowing the adaption of similarity search region to query-specific semantic features, which ensures robust tracking of complex shape and scale changes. DeVOS employs an optical flow to obtain scene motion features which are further injected to deformable attention as strong priors to learnable offsets. Our method achieves top-rank performance on DAVIS 2017 val and test-dev (88.1%, 83.0%), YouTube-VOS 2019 val (86.6%) while featuring consistent run-time speed and stable memory consumption | 翻訳日:2024-05-15 13:28:19 公開日:2024-05-11 |
# 現代バイオ統計学における強化学習 : 最適適応的介入の構築
Reinforcement Learning in Modern Biostatistics: Constructing Optimal Adaptive Interventions ( http://arxiv.org/abs/2203.02605v3 ) ライセンス: Link先を確認 | Nina Deliu, Joseph Jay Williams, Bibhas Chakraborty, | (参考訳) 近年、強化学習(RL)は、健康関連シーケンシャルな意思決定問題において顕著な地位を獲得し、適応的介入(AI)を実現するための貴重なツールとして注目を集めている。
しかし, 方法論と適用コミュニティの相乗効果が乏しいこともあり, 実際の適用は限定的であり, その可能性もまだ実現されていない。
このギャップに対処するため、我々の研究は、医療におけるさまざまなタイプのAIを構築するためのケーススタディと補完するRL手法に関する最初の統一された技術調査を提供する。
特に、RLの一般的な方法論の傘を用いて、2つの異なるAIドメイン、動的治療体制、およびモバイルヘルスにおけるジャスト・イン・タイム適応的介入をブリッジし、類似点とそれらの相違点を強調し、RLの使用の意味について議論する。
今後の研究方向性に関するオープンな問題と考察を概説する。
最後に、我々は、両方の分野でケーススタディを設計した経験を活用し、AIの進歩において統計学、RL、医療研究者の間で重要な協力の機会を示す。
In recent years, reinforcement learning (RL) has acquired a prominent position in health-related sequential decision-making problems, gaining traction as a valuable tool for delivering adaptive interventions (AIs). However, in part due to a poor synergy between the methodological and the applied communities, its real-life application is still limited and its potential is still to be realized. To address this gap, our work provides the first unified technical survey on RL methods, complemented with case studies, for constructing various types of AIs in healthcare. In particular, using the common methodological umbrella of RL, we bridge two seemingly different AI domains, dynamic treatment regimes and just-in-time adaptive interventions in mobile health, highlighting similarities and differences between them and discussing the implications of using RL. Open problems and considerations for future research directions are outlined. Finally, we leverage our experience in designing case studies in both areas to showcase the significant collaborative opportunities between statistical, RL, and healthcare researchers in advancing AIs. | 翻訳日:2024-05-15 02:11:16 公開日:2024-05-11 |
# FPGAを使って自分自身の信頼できる実行環境を構築する
Building Your Own Trusted Execution Environments Using FPGA ( http://arxiv.org/abs/2203.04214v3 ) ライセンス: Link先を確認 | Md Armanuzzaman, Ahmad-Reza Sadeghi, Ziming Zhao, | (参考訳) 近年では、Intel SGXやArm TrustZoneといった新しいハードウェアセキュリティ機能のおかげで、ハードウェア支援のTrusted Execution Environments(TEE)やエンクレーブを使用して、コモディティデバイス上の機密コードやデータを保護するという前例のない成長を目の当たりにしています。
プロプライエタリなTEEには多くのメリットがあるが、透明性や脆弱性、さまざまな制限が欠如しているとして批判されている。
例えば、既存のTEEは静的で固定されたハードウェアTrusted Computing Base(TCB)のみを提供しており、異なるアプリケーション用にカスタマイズできない。
既存のTEEはRich Execution Environment (REE)とプロセッサコアをタイムシェアしているため、実行は効率が悪く、キャッシュサイドチャネル攻撃に対して脆弱である。
さらにTrustZoneには、複数のTEE、リモート認証、メモリ暗号化のためのハードウェアサポートがない。
本稿では,コモディティフィールドプログラム可能なゲートアレー(FPGA)デバイスを利用して,複数のセキュアなエンクレーブを構築するための,使いやすいインフラであるBYOTee(Build Your Own Trusted Execution Environments)を提案する。
BYOTeeは、FPGAの要求に応じて、ソフトコアCPU、ブロックRAM、周辺接続を含むカスタマイズされたハードウェアTCBでエンクレーブを作成する。
さらに、BYOTeeは、ビットストリーム、ファームウェア、SSA(Security-Sensitive Applications)を含むカスタマイズされたエンクレーブのハードウェアおよびソフトウェアスタックの整合性を証明し、その入力と出力をリモート検証器に出力するメカニズムを提供する。
我々は Xilinx System-on-Chip (SoC) FPGA 用の BYOTee システムを実装した。
4つのSSAおよび12のベンチマークアプリケーションに対するローエンドのZynq-7000システムの評価は、BYOTeeフレームワークの使用、セキュリティ、有効性、性能を示している。
In recent years, we have witnessed unprecedented growth in using hardware-assisted Trusted Execution Environments (TEE) or enclaves to protect sensitive code and data on commodity devices thanks to new hardware security features, such as Intel SGX and Arm TrustZone. Even though the proprietary TEEs bring many benefits, they have been criticized for lack of transparency, vulnerabilities, and various restrictions. For example, existing TEEs only provide a static and fixed hardware Trusted Computing Base (TCB), which cannot be customized for different applications. Existing TEEs time-share a processor core with the Rich Execution Environment (REE), making execution less efficient and vulnerable to cache side-channel attacks. Moreover, TrustZone lacks hardware support for multiple TEEs, remote attestation, and memory encryption. In this paper, we present BYOTee (Build Your Own Trusted Execution Environments), which is an easy-to-use infrastructure for building multiple equally secure enclaves by utilizing commodity Field Programmable Gate Arrays (FPGA) devices. BYOTee creates enclaves with customized hardware TCBs, which include softcore CPUs, block RAMs, and peripheral connections, in FPGA on demand. Additionally, BYOTee provides mechanisms to attest the integrity of the customized enclaves' hardware and software stacks, including bitstream, firmware, and the Security-Sensitive Applications (SSA) along with their inputs and outputs to remote verifiers. We implement a BYOTee system for the Xilinx System-on-Chip (SoC) FPGA. The evaluations on the low-end Zynq-7000 system for four SSAs and 12 benchmark applications demonstrate the usage, security, effectiveness, and performance of the BYOTee framework. | 翻訳日:2024-05-15 02:11:16 公開日:2024-05-11 |
# 奇数$N$を持つ$N$粒子系における強量子非局所性と絡みのない拡張性
Strong quantum nonlocality and unextendibility without entanglement in $N$-partite systems with odd $N$ ( http://arxiv.org/abs/2203.14503v3 ) ライセンス: Link先を確認 | Yiyun He, Fei Shi, Xiande Zhang, | (参考訳) 直交積状態の集合が強い非局所性(英語版)(strong nonlocality)であるとは、それがすべての二分法において局所的に既約であるときに言う。
このような現象は、いかなる3-、4-、および5-パーティライト系にも示されているが、多角形系における強い非局所直交積の存在は、いまだに不明である。
本論文では、$N$-次元ハイパーキューブの一般分解を用いて、すべての奇数$N\geq 3$に対して、$N$-パーティイト系において強い非局所直交積集合を示す。
この分解に基づいて、奇数$N\geq 3$に対する$N$-partiteシステムにおいて、拡張不可能な積基底の明示的な構成を与える。
さらに、量子秘密共有、未コンパイルの製品ベース、PTT絡み合った状態に適用する。
A set of orthogonal product states is strongly nonlocal if it is locally irreducible in every bipartition, which shows the phenomenon of strong quantum nonlocality without entanglement. Although such a phenomenon has been shown to any three-, four-, and five-partite systems, the existence of strongly nonlocal orthogonal product sets in multipartite systems remains unknown. In this paper, by using a general decomposition of the $N$-dimensional hypercubes, we present strongly nonlocal orthogonal product sets in $N$-partite systems for all odd $N\geq 3$. Based on this decomposition, we give explicit constructions of unextendible product bases in $N$-partite systems for odd $N\geq 3$. Furthermore, we apply our results to quantum secret sharing, uncompletable product bases, and PPT entangled states. | 翻訳日:2024-05-15 02:11:16 公開日:2024-05-11 |
# AMR-to-Textのためのニューラルネットワーク
A Survey : Neural Networks for AMR-to-Text ( http://arxiv.org/abs/2206.07328v2 ) ライセンス: Link先を確認 | Hongyu Hao, Guangtong Li, Zhiming Hu, Huafeng Wang, | (参考訳) AMR-to-textは、抽象的意味表現(AMR)グラフから文を生成することを目的とした、NLPコミュニティの重要なテクニックの1つである。
2013年にAMRが提案されて以来、AMR-to-Textの研究は、自然言語の高レベルなセマンティック記述としてのAMRの独特な利点から、構造化データの本質的な分岐として、ますます普及している。
本稿では,AMR-to-Textに関する簡単な調査を行う。
まず,本手法の現在のシナリオを紹介し,その難しさを指摘する。
第2に, 前回の研究では, ルールベース, Seq-to-Seq-based, Graph-to-Seq-based, Transformer-based, Pre-trained Language Model (PLM) の5つのカテゴリに大別した。
特に、ニューラルネットワークに基づく手法の詳細と、AMR再構成やデコーダ最適化などを参照して、AMR-to-Textの最新の進歩を示す。
さらに,AMR-to-Textのベンチマークと評価手法について述べる。
最終的には、現在の技術と今後の研究の展望について概説する。
AMR-to-text is one of the key techniques in the NLP community that aims at generating sentences from the Abstract Meaning Representation (AMR) graphs. Since AMR was proposed in 2013, the study on AMR-to-Text has become increasingly prevalent as an essential branch of structured data to text because of the unique advantages of AMR as a high-level semantic description of natural language. In this paper, we provide a brief survey of AMR-to-Text. Firstly, we introduce the current scenario of this technique and point out its difficulties. Secondly, based on the methods used in previous studies, we roughly divided them into five categories according to their respective mechanisms, i.e., Rules-based, Seq-to-Seq-based, Graph-to-Seq-based, Transformer-based, and Pre-trained Language Model (PLM)-based. In particular, we detail the neural network-based method and present the latest progress of AMR-to-Text, which refers to AMR reconstruction, Decoder optimization, etc. Furthermore, we present the benchmarks and evaluation methods of AMR-to-Text. Eventually, we provide a summary of current techniques and the outlook for future research. | 翻訳日:2024-05-15 02:11:16 公開日:2024-05-11 |
# Dual Knowledge-enhanced Generative Pretrained Language Model を用いたマルチモーダル対話システム
Multimodal Dialog Systems with Dual Knowledge-enhanced Generative Pretrained Language Model ( http://arxiv.org/abs/2207.07934v2 ) ライセンス: Link先を確認 | Xiaolin Chen, Xuemeng Song, Liqiang Jing, Shuo Li, Linmei Hu, Liqiang Nie, | (参考訳) マルチモーダル・タスク指向対話システムにおけるテキスト応答生成は,マルチモーダル・コンテキストによって適切なテキスト応答を生成することを目的としている。
既存の取り組みは説得力のある成功を収めていますが、それでも2つの重要な制限に悩まされています。
1) 生成前訓練の利点を見落として,
2) 文脈関連知識は無視する。
これらの制約に対処するために、二元的知識選択、二元的知識強化文脈学習、知識強化応答生成という3つの重要な要素からなる多元的タスク指向対話システム(DKMD)のための、新しい二元的知識強化事前学習言語モデルを提案する。
具体的には、2つの知識選択コンポーネントは、与えられたコンテキストのテクスチャと視覚の両方に応じて関連する知識を選択することを目的としている。
その後、二元的知識強化コンテキスト学習コンポーネントは、選択した知識をグローバルとローカルの両方の観点からマルチモーダルな文脈学習にシームレスに統合することを目的としており、そこでは、相互モーダルな意味関係も検討されている。
さらに、知識強化応答生成コンポーネントは、改訂されたBARTデコーダを含み、追加のドット積知識デコーダ注目サブレイヤを導入して、その知識を明示的に活用してテキスト応答生成を進める。
パブリックデータセットに対する大規模な実験により、提案されたDKMDが最先端の競合相手よりも優れていることが検証された。
Text response generation for multimodal task-oriented dialog systems, which aims to generate the proper text response given the multimodal context, is an essential yet challenging task. Although existing efforts have achieved compelling success, they still suffer from two pivotal limitations: 1) overlook the benefit of generative pre-training, and 2) ignore the textual context related knowledge. To address these limitations, we propose a novel dual knowledge-enhanced generative pretrained language model for multimodal task-oriented dialog systems (DKMD), consisting of three key components: dual knowledge selection, dual knowledge-enhanced context learning, and knowledge-enhanced response generation. To be specific, the dual knowledge selection component aims to select the related knowledge according to both textual and visual modalities of the given context. Thereafter, the dual knowledge-enhanced context learning component targets seamlessly integrating the selected knowledge into the multimodal context learning from both global and local perspectives, where the cross-modal semantic relation is also explored. Moreover, the knowledge-enhanced response generation component comprises a revised BART decoder, where an additional dot-product knowledge-decoder attention sub-layer is introduced for explicitly utilizing the knowledge to advance the text response generation. Extensive experiments on a public dataset verify the superiority of the proposed DKMD over state-of-the-art competitors. | 翻訳日:2024-05-15 02:01:31 公開日:2024-05-11 |
# Stackelberg Congestion Gamesのための微分可能なバイレベルプログラミング
Differentiable Bilevel Programming for Stackelberg Congestion Games ( http://arxiv.org/abs/2209.07618v3 ) ライセンス: Link先を確認 | Jiayang Li, Jing Yu, Qianni Wang, Boyi Liu, Zhaoran Wang, Yu Marco Nie, | (参考訳) Stackelberg Congestion Game (SCG) において、リーダーは、群集が集まる平衡状態を予測し、操作することで、自身の利益を最大化することを目的としている。
しばしば二段階プログラムとして定式化され、大規模SCGはその難易度と複雑さでよく知られている。
本稿では,従来の手法と機械学習における最新の微分可能プログラミング技術を組み合わせることで,この計算課題に挑戦する。
中心となる考え方は、低レベルの平衡問題を模倣ロジットダイナミクス (ILD) によって定義された滑らかな進化軌道に置き換えることであり、これは緩やかな条件下での渋滞ゲームの平衡に収束することを証明している。
この理論基盤を基礎として,SCGのための局所探索アルゴリズムを2つ提案する。
1つ目は、微分可能プログラミングを用いてILDをアンロールすることで微分を求める勾配降下アルゴリズムである。
ILDの滑らかさのおかげで、アルゴリズムは効率性とスケーラビリティの両方を約束する。
第2のアルゴリズムは、フォロワーの進化軌道を短くすることでヒューリスティックなツイストを加える。
行動的には、これは、フォロワーの均衡における最良の反応を予想する代わりに、リーダーは限られたステップだけを前にして、その反応を近似しようとすることを意味する。
本研究は,おもちゃのベンチマークから大規模実世界の実例まで,古典的SCGアプリケーションの様々な事例を対象とした数値実験を行った。
その結果,提案アルゴリズムは信頼性が高くスケーラブルな局所解法であり,本研究に含まれる多くの既存手法と比較して,高い正則性と計算労力の少ない高品質な解が得られることがわかった。
In a Stackelberg congestion game (SCG), a leader aims to maximize their own gain by anticipating and manipulating the equilibrium state at which the followers settle by playing a congestion game. Often formulated as bilevel programs, large-scale SCGs are well known for their intractability and complexity. Here, we attempt to tackle this computational challenge by marrying traditional methodologies with the latest differentiable programming techniques in machine learning. The core idea centers on replacing the lower-level equilibrium problem with a smooth evolution trajectory defined by the imitative logit dynamic (ILD), which we prove converges to the equilibrium of the congestion game under mild conditions. Building upon this theoretical foundation, we propose two new local search algorithms for SCGs. The first is a gradient descent algorithm that obtains the derivatives by unrolling ILD via differentiable programming. Thanks to the smoothness of ILD, the algorithm promises both efficiency and scalability. The second algorithm adds a heuristic twist by cutting short the followers' evolution trajectory. Behaviorally, this means that, instead of anticipating the followers' best response at equilibrium, the leader seeks to approximate that response by only looking ahead a limited number of steps. Our numerical experiments are carried out over various instances of classic SCG applications, ranging from toy benchmarks to large-scale real-world examples. The results show the proposed algorithms are reliable and scalable local solvers that deliver high-quality solutions with greater regularity and significantly less computational effort compared to the many incumbents included in our study. | 翻訳日:2024-05-15 02:01:31 公開日:2024-05-11 |
# 等価量子ニューラルネットワークの理論
Theory for Equivariant Quantum Neural Networks ( http://arxiv.org/abs/2210.08566v2 ) ライセンス: Link先を確認 | Quynh T. Nguyen, Louis Schatzki, Paolo Braccia, Michael Ragone, Patrick J. Coles, Frederic Sauvage, Martin Larocca, M. Cerezo, | (参考訳) インダクティブバイアスがほとんどない量子ニューラルネットワークアーキテクチャは、トレーニング容易性と一般化の問題に直面していることが知られている。
同様の問題にインスパイアされた最近の機械学習のブレークスルーは、学習タスクの対称性をコードするモデルを作成することで、この問題に対処している。
これは、作用が対称性のそれと可換である同変ニューラルネットワークの使用によって実現される。
本研究では、これらのアイデアを量子領域にインポートし、任意の関連する対称性群に対して同変量子ニューラルネットワーク(EQNN)を設計するための包括的な理論的枠組みを示す。
我々は、EQNNの同変層を構築するための複数の手法を開発し、その利点と欠点を分析する。
我々の手法は、対称性群が指数関数的に大きい場合や連続である場合であっても、ユニタリまたは一般同変量子チャネルを効率的に見つけることができる。
特殊実装として,標準量子畳み込みニューラルネットワーク (QCNN) を群等価QCNNに一般化する方法を示す。
次に, 対称性に依存しないQCNNに対するSU(2)-同変QCNNの有効性を, 結合交互ハイゼンベルクモデルにおける物質相の分類タスクにおいて数値的に示す。
私たちのフレームワークは、量子機械学習のほぼすべての領域に簡単に適用できます。
最後に、EQNNのような対称性に富んだモデルが、不毛の高原、低局所のミニマ、サンプルの複雑さといった中心的な課題を軽減するためにどのように役立つかについて議論する。
Quantum neural network architectures that have little-to-no inductive biases are known to face trainability and generalization issues. Inspired by a similar problem, recent breakthroughs in machine learning address this challenge by creating models encoding the symmetries of the learning task. This is materialized through the usage of equivariant neural networks whose action commutes with that of the symmetry. In this work, we import these ideas to the quantum realm by presenting a comprehensive theoretical framework to design equivariant quantum neural networks (EQNN) for essentially any relevant symmetry group. We develop multiple methods to construct equivariant layers for EQNNs and analyze their advantages and drawbacks. Our methods can find unitary or general equivariant quantum channels efficiently even when the symmetry group is exponentially large or continuous. As a special implementation, we show how standard quantum convolutional neural networks (QCNN) can be generalized to group-equivariant QCNNs where both the convolution and pooling layers are equivariant to the symmetry group. We then numerically demonstrate the effectiveness of a SU(2)-equivariant QCNN over symmetry-agnostic QCNN on a classification task of phases of matter in the bond-alternating Heisenberg model. Our framework can be readily applied to virtually all areas of quantum machine learning. Lastly, we discuss about how symmetry-informed models such as EQNNs provide hopes to alleviate central challenges such as barren plateaus, poor local minima, and sample complexity. | 翻訳日:2024-05-15 02:01:31 公開日:2024-05-11 |
# テキスト-SQLモデルのセキュリティ脆弱性について
On the Security Vulnerabilities of Text-to-SQL Models ( http://arxiv.org/abs/2211.15363v4 ) ライセンス: Link先を確認 | Xutan Peng, Yipeng Zhang, Jingfeng Yang, Mark Stevenson, | (参考訳) 自然言語処理(NLP)アルゴリズムが故意の攻撃に弱いことが証明されているが、そのような弱点がソフトウェアセキュリティの脅威につながるかどうかという問題は未解決である。
このギャップを埋めるために、データベースに自然言語インターフェースを作成するのに一般的に使用されるText-to-SQLシステムで脆弱性テストを実施しました。
6つの商用アプリケーション内のText-to-SQLモジュールが悪意のあるコードを生成するために操作可能であることを示しました。
これはNLPモデルが野生の攻撃ベクトルとして活用できる最初の実演である。
さらに、4つのオープンソース言語モデルを用いた実験では、Text-to-SQLシステムに対する単純なバックドア攻撃が、パフォーマンスに影響を与えることなく100%の成功率を達成することを確認した。
この研究の目的は、NLPアルゴリズムに関連する潜在的なソフトウェアセキュリティ問題にコミュニティの注意を引き付け、それらの対策方法の探求を促進することである。
Although it has been demonstrated that Natural Language Processing (NLP) algorithms are vulnerable to deliberate attacks, the question of whether such weaknesses can lead to software security threats is under-explored. To bridge this gap, we conducted vulnerability tests on Text-to-SQL systems that are commonly used to create natural language interfaces to databases. We showed that the Text-to-SQL modules within six commercial applications can be manipulated to produce malicious code, potentially leading to data breaches and Denial of Service attacks. This is the first demonstration that NLP models can be exploited as attack vectors in the wild. In addition, experiments using four open-source language models verified that straightforward backdoor attacks on Text-to-SQL systems achieve a 100% success rate without affecting their performance. The aim of this work is to draw the community's attention to potential software security issues associated with NLP algorithms and encourage exploration of methods to mitigate against them. | 翻訳日:2024-05-15 02:01:31 公開日:2024-05-11 |
# 深層学習時代の心音解析に関する総合的調査
A Comprehensive Survey on Heart Sound Analysis in the Deep Learning Era ( http://arxiv.org/abs/2301.09362v2 ) ライセンス: Link先を確認 | Zhao Ren, Yi Chang, Thanh Tam Nguyen, Yang Tan, Kun Qian, Björn W. Schuller, | (参考訳) 心血管疾患の早期スクリーニングにおける臨床応用として, 心臓音聴診が有用である。
聴診の専門知識が要求されるため、自動聴診は補助診断や専門医の負担軽減に役立つ。
それでも、ビッグデータの時代における古典的な機械学習のパフォーマンス向上には限界がある。
ディープラーニングは多くの研究分野で古典的な機械学習よりも優れており、より複雑なモデルアーキテクチャを採用しており、効果的な表現を抽出する能力が強い。
さらに,近年,心臓の音像解析に成功している。
心臓の音分析に関する多くの研究が2017年以前に行われたため、今回の調査は、2017-2022年に発表されたディープラーニングによる心臓の音解析に関する論文を要約する総合的な概要に関する最初の研究である。
この研究は、古典的な機械学習とディープラーニングの両方を比較のために導入し、さらに、心音解析のためのディープラーニングの進歩と今後の研究方向性についての洞察を提供する。
私たちのリポジトリは、 \url{https://github.com/zhaoren91/awesome-heart-sound-analysis}で公開されています。
Heart sound auscultation has been applied in clinical usage for early screening of cardiovascular diseases. Due to the high demand for auscultation expertise, automatic auscultation can help with auxiliary diagnosis and reduce the burden of training professional clinicians. Nevertheless, there is a limit to classic machine learning's performance improvement in the era of big data. Deep learning has outperformed classic machine learning in many research fields, as it employs more complex model architectures with a stronger capability of extracting effective representations. Moreover, it has been successfully applied to heart sound analysis in the past years. As most review works about heart sound analysis were carried out before 2017, the present survey is the first to work on a comprehensive overview to summarise papers on heart sound analysis with deep learning published in 2017--2022. This work introduces both classic machine learning and deep learning for comparison, and further offer insights about the advances and future research directions in deep learning for heart sound analysis. Our repository is publicly available at \url{https://github.com/zhaoren91/awesome-heart-sound-analysis}. | 翻訳日:2024-05-15 01:51:46 公開日:2024-05-11 |
# ポスト強化学習推論
Post Reinforcement Learning Inference ( http://arxiv.org/abs/2302.08854v3 ) ライセンス: Link先を確認 | Vasilis Syrgkanis, Ruohan Zhan, | (参考訳) 強化学習アルゴリズムから収集したデータを用いた推定と推定について検討する。
これらのアルゴリズムは、適応的な実験によって特徴づけられ、複数の段階にわたって個々のユニットと相互作用し、以前の相互作用に基づいて戦略を動的に調整する。
我々のゴールは、データ収集後のカウンターファクトポリシーを評価し、動的処理効果のような構造パラメータを推定することであり、これは、クレジットの割り当てや、初期アクションが最終的な結果に与える影響を決定するのに使用できる。
このような興味のあるパラメータはモーメント方程式の解として表すことができるが、人口減少関数の最小化は行わず、静的データに対するZ推定のアプローチに繋がる。
しかし、アルゴリズムが非定常行動ポリシーをデプロイする強化学習の適応的データ収集環境においては、標準推定器は変動変動による漸近正規性を達成できない。
そこで本研究では,時間変動推定分散を安定化させるために,適応重みを慎重に設計した重み付きZ推定手法を提案する。
我々は、目標パラメータに対する重み付きZ推定器の整合性と漸近正規性を取り戻すための適切な重み付けスキームを特定し、仮説テストと一様信頼領域の構築を可能にする。
主な応用は、動的処理効果推定と動的オフポリシー評価である。
We consider estimation and inference using data collected from reinforcement learning algorithms. These algorithms, characterized by their adaptive experimentation, interact with individual units over multiple stages, dynamically adjusting their strategies based on previous interactions. Our goal is to evaluate a counterfactual policy post-data collection and estimate structural parameters, like dynamic treatment effects, which can be used for credit assignment and determining the effect of earlier actions on final outcomes. Such parameters of interest can be framed as solutions to moment equations, but not minimizers of a population loss function, leading to Z-estimation approaches for static data. However, in the adaptive data collection environment of reinforcement learning, where algorithms deploy nonstationary behavior policies, standard estimators do not achieve asymptotic normality due to the fluctuating variance. We propose a weighted Z-estimation approach with carefully designed adaptive weights to stabilize the time-varying estimation variance. We identify proper weighting schemes to restore the consistency and asymptotic normality of the weighted Z-estimators for target parameters, which allows for hypothesis testing and constructing uniform confidence regions. Primary applications include dynamic treatment effect estimation and dynamic off-policy evaluation. | 翻訳日:2024-05-15 01:51:46 公開日:2024-05-11 |
# 積分可能モデルの弱可積分性破壊摂動
Weak integrability breaking perturbations of integrable models ( http://arxiv.org/abs/2302.12804v2 ) ライセンス: Link先を確認 | Federica Maria Surace, Olexei Motrunich, | (参考訳) 積分性からわずかに遠ざかる量子可積分系は通常、次数$\tau\sim \lambda^{-2}$の時間スケールで熱化すると予想される。
ここでは、このスケーリングに反する摂動のクラスを研究し、より長い熱化時間 $\tau\sim \lambda^{-2\ell}$ を示す。
このような「弱可積分性破壊」摂動を持つ系は、位数$\lambda^\ell$の補正まで摂動ハミルトニアンと通勤する準保存量が非常に多い。
任意の$\ell$に対して、一般化可積分モデルのそのような弱い摂動の族を得る体系的な構成を示す。
次に、ハイゼンベルク、XXZ、XYZ鎖、ハバードモデル、スピンレス自由フェルミオンのモデル、量子イジング鎖など様々なモデルに適用する。
我々の分析枠組みは、ある種の摂動の下でハイゼンベルク鎖とXXZ鎖の弱い可積分性の破れが以前に観測された証拠を説明する。
A quantum integrable system slightly perturbed away from integrability is typically expected to thermalize on timescales of order $\tau\sim \lambda^{-2}$, where $\lambda$ is the perturbation strength. We here study classes of perturbations that violate this scaling, and exhibit much longer thermalization times $\tau\sim \lambda^{-2\ell}$ where $\ell>1$ is an integer. Systems with these "weak integrability breaking" perturbations have an extensive number of quasi-conserved quantities that commute with the perturbed Hamiltonian up to corrections of order $\lambda^\ell$. We demonstrate a systematic construction to obtain families of such weak perturbations of a generic integrable model for arbitrary $\ell$. We then apply the construction to various models, including the Heisenberg, XXZ, and XYZ chains, the Hubbard model, models of spinless free fermions, and the quantum Ising chain. Our analytical framework explains the previously observed evidence of weak integrability breaking in the Heisenberg and XXZ chains under certain perturbations. | 翻訳日:2024-05-15 01:51:46 公開日:2024-05-11 |
# 分布拡散による不確実性を考慮した歩行者軌道予測
Uncertainty-Aware Pedestrian Trajectory Prediction via Distributional Diffusion ( http://arxiv.org/abs/2303.08367v2 ) ライセンス: Link先を確認 | Yao Liu, Zesheng Ye, Rui Wang, Binghao Li, Quan Z. Sheng, Lina Yao, | (参考訳) 人間行動の不確実性や多様性に対応するため、歩行者軌道を生成モデルで予測する努力が続けられている。
個人固有の不確実性、例えば目的地の変更は、相互作用する歩行者の動きから生じる複雑なパターンによって隠蔽される。
しかし、潜伏変数に基づく生成モデルは、しばしばそのような不確実性を複雑さと絡み合い、潜伏表現率または予測多様性に制限される。
本研究では,2つの要因を個別にモデル化し,複雑な歩行者の動きを捉えるための柔軟な潜伏表現を暗黙的に導き出すとともに,2変数のガウス混合密度を持つ個体の予測的不確かさを将来の場所に組み込むことを提案する。
具体的には,マルチモーダル軌道を構成するガウスの混合に対する十分な統計量のパラメータ化を行う,モデルに依存しない不確実性を考慮した歩行者軌道予測フレームワークを提案する。
さらに、騒音から歩行者の動きを段階的に回復する認知過程を近似することにより、これらのパラメーターを推定する。
従来の研究とは異なり、予測確率性は明示的な分布に変換され、個人の自己不確実性を示す妥当な将来の軌跡を容易に生成できる。
さらに、我々のフレームワークは異なるニューラルネットアーキテクチャと互換性がある。
2つの公開ベンチマークのほとんどの場面で、より軽いバックボーンでさえ、最先端のパフォーマンス向上を実証的に示す。
Tremendous efforts have been put forth on predicting pedestrian trajectory with generative models to accommodate uncertainty and multi-modality in human behaviors. An individual's inherent uncertainty, e.g., change of destination, can be masked by complex patterns resulting from the movements of interacting pedestrians. However, latent variable-based generative models often entangle such uncertainty with complexity, leading to limited either latent expressivity or predictive diversity. In this work, we propose to separately model these two factors by implicitly deriving a flexible latent representation to capture intricate pedestrian movements, while integrating predictive uncertainty of individuals with explicit bivariate Gaussian mixture densities over their future locations. More specifically, we present a model-agnostic uncertainty-aware pedestrian trajectory prediction framework, parameterizing sufficient statistics for the mixture of Gaussians that jointly comprise the multi-modal trajectories. We further estimate these parameters of interest by approximating a denoising process that progressively recovers pedestrian movements from noise. Unlike previous studies, we translate the predictive stochasticity to explicit distributions, allowing it to readily generate plausible future trajectories indicating individuals' self-uncertainty. Moreover, our framework is compatible with different neural net architectures. We empirically show the performance gains over state-of-the-art even with lighter backbones, across most scenes on two public benchmarks. | 翻訳日:2024-05-15 01:51:46 公開日:2024-05-11 |
# ChatGPTによる自己協調コード生成
Self-collaboration Code Generation via ChatGPT ( http://arxiv.org/abs/2304.07590v3 ) ライセンス: Link先を確認 | Yihong Dong, Xue Jiang, Zhi Jin, Ge Li, | (参考訳) LLM(Large Language Models)はコード生成能力に優れていますが、それでも複雑なタスクで苦労しています。
現実世界のソフトウェア開発では、人間は通常、共同作業を通じて複雑なタスクに取り組む。
これに触発されて,ChatGPT で実証された LLM を用いたコード生成のための自己協調フレームワークを提案する。
具体的には、役割指示を通じて。
1) 複数のLDMエージェントは,個別の「専門家」として機能し,それぞれが複雑なタスク内の特定のサブタスクに責任を負う。
2) 協力と対話の方法を特定し、異なる役割が互いに作業を促進するために仮想チームを形成するようにし、最終的には人間の介入を必要とせずに、共同でコード生成タスクに対処します。
この仮想チームを効果的に組織化し、管理するために、ソフトウェア開発方法論をフレームワークに組み入れます。
そこで我々は,ソフトウェア開発の分析,コーディング,テストの段階を担当する3つのLLMロール(アナリスト,コーダ,テスタ)からなる基本チームを編成する。
様々なコード生成ベンチマークに関する総合的な実験を行う。
実験の結果、LLMエージェントと比較して、自己協調コード生成は29.9%-47.1%のPass@1が比較的改善していることが示された。
さらに, 自己協調により, 単一のLLMエージェントで簡単には解けない複雑なリポジトリレベルのタスクを, LLMが効率的に処理できる可能性が示された。
Although Large Language Models (LLMs) have demonstrated remarkable code-generation ability, they still struggle with complex tasks. In real-world software development, humans usually tackle complex tasks through collaborative teamwork, a strategy that significantly controls development complexity and enhances software quality. Inspired by this, we present a self-collaboration framework for code generation employing LLMs, exemplified by ChatGPT. Specifically, through role instructions, 1) Multiple LLM agents act as distinct `experts', each responsible for a specific subtask within a complex task; 2) Specify the way to collaborate and interact, so that different roles form a virtual team to facilitate each other's work, ultimately the virtual team addresses code generation tasks collaboratively without the need for human intervention. To effectively organize and manage this virtual team, we incorporate software-development methodology into the framework. Thus, we assemble an elementary team consisting of three LLM roles (i.e., analyst, coder, and tester) responsible for software development's analysis, coding, and testing stages. We conduct comprehensive experiments on various code-generation benchmarks. Experimental results indicate that self-collaboration code generation relatively improves 29.9%-47.1% Pass@1 compared to the base LLM agent. Moreover, we showcase that self-collaboration could potentially enable LLMs to efficiently handle complex repository-level tasks that are not readily solved by the single LLM agent. | 翻訳日:2024-05-15 01:51:46 公開日:2024-05-11 |
# 残差予測に基づく対応付きポイントクラウド登録のための効率的・決定論的探索戦略
Efficient and Deterministic Search Strategy Based on Residual Projections for Point Cloud Registration with Correspondences ( http://arxiv.org/abs/2305.11716v2 ) ライセンス: Link先を確認 | Xinyi Li, Hu Cao, Yinlong Liu, Xueli Liu, Feihu Zhang, Alois Knoll, | (参考訳) 2つのLiDARスキャン間の3次元対応による剛性変換を推定することは、典型的なポイントクラウド登録パラダイムである。
現在の3D特徴マッチングアプローチは、通常、多くの外乱対応をもたらし、外乱登録技術は不可欠である。
近年の多くの研究は、対応ベースのポイントクラウド登録問題を解決するためにブランチ・アンド・バウンド最適化(BnB)フレームワークを採用している。
それでも、BnBベースの手法は、計算複雑性が最悪の場合の解領域次元に指数関数的であるため、6次元のパラメータ空間全体を探索するのに時間を要する。
アルゴリズム効率を向上させるために、既存の作業は6自由度(DOF)元の問題を2つの3自由度サブプロブレムに分離し、探索空間を小さくしようとする。
対照的に,本手法では,残射影に基づく新規なポーズデカップリング戦略を導入し,生の登録問題を3つのサブプロブレムに分解する。
その後、BnBに間隔スタビングを組み込み、これらのサブプロブレムを下位2次元領域内に解決し、効率よく決定論的に登録する。
さらに,本手法は同時ポーズと登録の困難な問題に適応することができる。
合成および実世界のデータセットに挑戦する包括的な実験を通じて、提案手法は、同等の堅牢性を保ちながら、効率の面で最先端の手法より優れていることを示す。
Estimating the rigid transformation between two LiDAR scans through putative 3D correspondences is a typical point cloud registration paradigm. Current 3D feature matching approaches commonly lead to numerous outlier correspondences, making outlier-robust registration techniques indispensable. Many recent studies have adopted the branch and bound (BnB) optimization framework to solve the correspondence-based point cloud registration problem globally and deterministically. Nonetheless, BnB-based methods are time-consuming to search the entire 6-dimensional parameter space, since their computational complexity is exponential to the solution domain dimension in the worst-case. To enhance algorithm efficiency, existing works attempt to decouple the 6 degrees of freedom (DOF) original problem into two 3-DOF sub-problems, thereby reducing the search space. In contrast, our approach introduces a novel pose decoupling strategy based on residual projections, decomposing the raw registration problem into three sub-problems. Subsequently, we embed interval stabbing into BnB to solve these sub-problems within a lower two-dimensional domain, resulting in efficient and deterministic registration. Moreover, our method can be adapted to address the challenging problem of simultaneous pose and registration. Through comprehensive experiments conducted on challenging synthetic and real-world datasets, we demonstrate that the proposed method outperforms state-of-the-art methods in terms of efficiency while maintaining comparable robustness. | 翻訳日:2024-05-15 01:42:01 公開日:2024-05-11 |
# 部分位相反転型量子ウォークによるハイパーキューブ上の複数の隣接マーク付き頂点の探索
Search for Multiple Adjacent Marked Vertices on the Hypercube by a Quantum Walk with Partial Phase Inversion ( http://arxiv.org/abs/2305.19614v2 ) ライセンス: Link先を確認 | Luciano S. de Souza, Jonathan H. A. de Carvalho, Henrique C. T. Santos, Tiago A. E. Ferreira, | (参考訳) 量子探索アルゴリズムには強い関心があり、特に隣り合う複数の解の問題に強い関心がある。
ハイパーキューブでは、量子系のエネルギーの一部がターゲット状態に隣接する状態に保持され、ターゲット状態が観測される確率が減少する。
本稿では,多ループラカダイシカル量子ウォークを部分位相インバージョンで適用し,ハイパーキューブ上に隣接する複数のマーク付き頂点を探索する。
マークされた頂点の種類のような側面は、複数の自己ループと重み合成を使用することに加えて考慮される。
2つのシナリオが分析される。
まず、隣接点の頂点と隣接点の頂点の相対的な位置が一致する。
第二に、隣接するマークされた頂点のみが解析される。
ここでは、部分位相反転により、量子ウォークがターゲット状態の確率振幅を増幅し、1ドルに近い値の成功確率に達することを実験的に示す。
また,非隣接標識頂点の相対的位置が検索結果に有意な影響を及ぼさないことを示す。
この結果から,対象状態の部分的位相反転は,実際の探索アプリケーションにおいて重要な容量である量子ウォーク(quantum walk)を用いて隣接する解を探索する上で,有望な代替手段であることが示された。
There is a strong interest in quantum search algorithms, particularly in problems with multiple adjacent solutions. In the hypercube, part of the energy of the quantum system is retained in states adjacent to the target states, decreasing the chances of the target states being observed. This paper applies the Multiself-loop Lackadaisical Quantum Walk with Partial Phase Inversion to search for multiple adjacent marked vertices on the hypercube. Aspects like the type of marked vertices are considered in addition to using multiple self-loops and weight compositions. Two scenarios are analyzed. Firstly, the relative position of non-adjacent marked vertices together with adjacent marked vertices. Secondly, only adjacent marked vertices are analyzed. Here, we show experimentally that, with partial phase inversion, a quantum walk can amplify the probability amplitudes of the target states, reaching success probabilities of values close to $1$. We also show that the relative position of non-adjacent marked vertices does not significantly influence the search results. Our results demonstrate that the partial phase inversion of target states is a promising alternative to search adjacent solutions with quantum walks, which is a key capacity for real search applications. | 翻訳日:2024-05-15 01:42:01 公開日:2024-05-11 |
# 弱相関関数:洞察と正確な読み出し戦略
Weak-valued correlation functions: Insights and precise readout strategies ( http://arxiv.org/abs/2306.04398v3 ) ライセンス: Link先を確認 | Yuan Feng, Xi Chen, Yongcheng Ding, | (参考訳) 量子系の相関関数は、それらの性質を復号し、物理現象に関する洞察を得る上で重要な役割を果たす。
その解釈は時空間の粒子励起の伝播に対応しており、相互作用によってシステム情報を記録するという点で量子弱測定の考え方と類似している。
弱値相関関数を定義することにより、弱い測定により装置に記録するための基本的な洞察と普遍的な方法を提案する。
提案手法の有効性を示すため,摂動型量子調和振動子の数値実験を行い,結合強度とアンサンブルコピー数との複雑な相互作用に対処する。
さらに、我々のプロトコルを量子場理論の領域に拡張し、相関関数に関する重要な情報を結合弱値でエンコードする。
この包括的研究は、量子論における相関関数の基本的な性質と弱い測定の理解を深めることが期待できる。
The correlation function in quantum systems plays a vital role in decoding their properties and gaining insights into physical phenomena. Its interpretation corresponds to the propagation of particle excitations between space-time, similar in spirit to the idea of quantum weak measurement in terms of recording the system information by interaction. By defining weak-valued correlation function, we propose the basic insights and the universal methods for recording them on the apparatus through weak measurement. To demonstrate the feasibility of our approach, we perform numerical experiments of perturbed quantum harmonic oscillators, addressing the intricate interplay between the coupling strength and the number of ensemble copies. Additionally, we extend our protocol to the domain of quantum field theory, where joint weak values encode crucial information about the correlation function. Hopefully, this comprehensive investigation can advance our understanding of the fundamental nature of the correlation function and weak measurement in quantum theories. | 翻訳日:2024-05-15 01:42:01 公開日:2024-05-11 |
# ステップ融合:地域的・世界的相互指導
Step fusion: Local and global mutual guidance ( http://arxiv.org/abs/2306.16950v2 ) ライセンス: Link先を確認 | Jiahao Qin, Yitao Xu, Zong Lu, Xiaojun Zhang, | (参考訳) 特徴アライメントは、マルチモーダルデータを融合する主要な手段である。
特徴空間内に一貫した表現を持つように、異なるモダリティから特徴情報を段階的にシフト・拡張する多モーダル情報を完全に融合する特徴アライメント手法を提案する。
提案手法は,異なるモダリティの特徴間の高レベル相互作用を頑健に捉えることができ,マルチモーダル学習の性能を大幅に向上させることができる。
また、提案手法は、複数のタスクにおいて、他の一般的なマルチモーダルスキームよりも優れていることを示す。
ETTとMIT-BIH-Arrhythmiaの実験的評価により,提案手法が最先端の性能を実現することを示す。
Feature alignment is the primary means of fusing multimodal data. We propose a feature alignment method that fully fuses multimodal information, which stepwise shifts and expands feature information from different modalities to have a consistent representation in a feature space. The proposed method can robustly capture high-level interactions between features of different modalities, thus significantly improving the performance of multimodal learning. We also show that the proposed method outperforms other popular multimodal schemes on multiple tasks. Experimental evaluation of ETT and MIT-BIH-Arrhythmia, datasets shows that the proposed method achieves state of the art performance. | 翻訳日:2024-05-15 01:32:16 公開日:2024-05-11 |
# 全スライド画像分類のための複数インスタンス学習の再考: よいインスタンス分類器は必要なだけ
Rethinking Multiple Instance Learning for Whole Slide Image Classification: A Good Instance Classifier is All You Need ( http://arxiv.org/abs/2307.02249v2 ) ライセンス: Link先を確認 | Linhao Qu, Yingfan Ma, Xiaoyuan Luo, Manning Wang, Zhijian Song, | (参考訳) 弱教師付き全スライド画像分類は通常、多重インスタンス学習(MIL)問題として定式化され、各スライドはバッグとして扱われ、そこから取り出されたパッチはインスタンスとして扱われる。
既存のメソッドは、擬似ラベルによるインスタンス分類器のトレーニングや、アテンションメカニズムによるバッグ機能への集約、そして、アテンションスコアをインスタンスレベルの分類に使用可能なバッグ分類器のトレーニングのいずれかである。
しかしながら、前者によって構築された擬似インスタンスラベルは、通常多くのノイズを含み、後者によって構築された注目スコアは十分正確ではなく、どちらもパフォーマンスに影響する。
本稿では,コントラスト学習とプロトタイプ学習に基づくインスタンスレベルのMILフレームワークを提案する。
そこで本研究では,MIL設定下でインスタンスレベルの弱教師付きコントラスト学習アルゴリズムを初めて提案し,インスタンスの特徴表現を効果的に学習する。
また,プロトタイプ学習による正確な擬似ラベル生成手法を提案する。
次に、弱教師付きコントラスト学習、プロトタイプ学習、インスタンス分類学習のための共同学習戦略を開発する。
4つのデータセットの大規模な実験と可視化は、我々の手法の強力な性能を示す。
コードはhttps://github.com/miccaiif/INS.comで入手できる。
Weakly supervised whole slide image classification is usually formulated as a multiple instance learning (MIL) problem, where each slide is treated as a bag, and the patches cut out of it are treated as instances. Existing methods either train an instance classifier through pseudo-labeling or aggregate instance features into a bag feature through attention mechanisms and then train a bag classifier, where the attention scores can be used for instance-level classification. However, the pseudo instance labels constructed by the former usually contain a lot of noise, and the attention scores constructed by the latter are not accurate enough, both of which affect their performance. In this paper, we propose an instance-level MIL framework based on contrastive learning and prototype learning to effectively accomplish both instance classification and bag classification tasks. To this end, we propose an instance-level weakly supervised contrastive learning algorithm for the first time under the MIL setting to effectively learn instance feature representation. We also propose an accurate pseudo label generation method through prototype learning. We then develop a joint training strategy for weakly supervised contrastive learning, prototype learning, and instance classifier training. Extensive experiments and visualizations on four datasets demonstrate the powerful performance of our method. Codes are available at https://github.com/miccaiif/INS. | 翻訳日:2024-05-15 01:32:16 公開日:2024-05-11 |
# ガウスラジアル基底関数ニューラルネットワークによるアクティブ部分空間の学習と重要な特徴の発見
Learning Active Subspaces and Discovering Important Features with Gaussian Radial Basis Functions Neural Networks ( http://arxiv.org/abs/2307.05639v2 ) ライセンス: Link先を確認 | Danny D'Agostino, Ilija Ilievski, Christine Annette Shoemaker, | (参考訳) 強い予測性能を達成し、同時に人間によって解釈されるモデルを提供することは、これらの2つの目的の相反する性質のため、機械学習研究における最も難しい課題の1つである。
この課題に対処するために,ガウス核に学習可能な精度行列を組み込むことにより,ラジアル基底関数ニューラルネットワークモデルの変更を提案する。
モデルの訓練が完了すると抽出できる精度行列のスペクトルに含まれる貴重な情報を示す。
特に固有ベクトルは、活性部分空間を明らかにするモデルの最大感度の方向を説明し、教師付き次元減少への潜在的応用を提案する。
同時に、固有ベクトルは、入力変数と潜伏変数の絶対変動の観点から、その関係を強調し、モデル解釈可能性を高める予測タスクにおいて、入力変数のランキングを抽出する。
回帰, 分類, 特徴選択タスクの数値実験を行い, 一般的な機械学習モデルとの比較, 最先端の深層学習に基づく埋込み特徴選択技術, 表データの変圧器モデルについて検討した。
本結果は,提案モデルが競合製品と比較して魅力的な予測性能を得るだけでなく,現実のアプリケーションにおける意思決定プロセスを支援する可能性のある有意義で解釈可能な結果も提供することを示す。
このモデルのPyTorch実装は、次のリンクでGitHubで公開されている。
https://github.com/dannyzx/Gaussian-RBFNN
Providing a model that achieves a strong predictive performance and is simultaneously interpretable by humans is one of the most difficult challenges in machine learning research due to the conflicting nature of these two objectives. To address this challenge, we propose a modification of the radial basis function neural network model by equipping its Gaussian kernel with a learnable precision matrix. We show that precious information is contained in the spectrum of the precision matrix that can be extracted once the training of the model is completed. In particular, the eigenvectors explain the directions of maximum sensitivity of the model revealing the active subspace and suggesting potential applications for supervised dimensionality reduction. At the same time, the eigenvectors highlight the relationship in terms of absolute variation between the input and the latent variables, thereby allowing us to extract a ranking of the input variables based on their importance to the prediction task enhancing the model interpretability. We conducted numerical experiments for regression, classification, and feature selection tasks, comparing our model against popular machine learning models, the state-of-the-art deep learning-based embedding feature selection techniques, and a transformer model for tabular data. Our results demonstrate that the proposed model does not only yield an attractive prediction performance compared to the competitors but also provides meaningful and interpretable results that potentially could assist the decision-making process in real-world applications. A PyTorch implementation of the model is available on GitHub at the following link. https://github.com/dannyzx/Gaussian-RBFNN | 翻訳日:2024-05-15 01:32:16 公開日:2024-05-11 |
# 直観的ファジィ・ブロードラーニングシステム:騒音と外乱に対するロバスト性を高める
Intuitionistic Fuzzy Broad Learning System: Enhancing Robustness Against Noise and Outliers ( http://arxiv.org/abs/2307.08713v2 ) ライセンス: Link先を確認 | M. Sajid, A. K. Malik, M. Tanveer, | (参考訳) データ分類の分野では、層間フィードフォワードニューラルネットワークを利用する強力なツールとして広範学習システム(BLS)が証明されている。
しかし、従来のBLSは全てのサンプルを同等に重要なものとして扱うため、ノイズや外れ値のある実世界のデータセットでは、より堅牢で効果の低いものとなっている。
この問題に対処するために,ファジィ広義学習システム (F-BLS) と直観的ファジィ広義学習システム (IF-BLS) モデルを提案する。
ファジィメンバシップ手法を用いて,BLSフレームワーク固有の特徴空間内に,各クラスセンタの近接性に基づくサンプル近傍情報を埋め込む。
さらに、IF-BLSモデルでは、メンバーシップ、非メンバーシップ、スコア値関数を含む直観的ファジィの概念を導入している。
IF-BLSは、カーネル空間のサンプル近傍における均一性と不均一性を戦略的に考慮している。
提案したF-BLSモデルとIF-BLSモデルの性能評価を行った。
本稿では,アルツハイマー病(AD)の診断のためのF-BLSモデルとIF-BLSモデルを提案する。
実験結果と統計的解析は、提案したF-BLSモデルとIF-BLSモデルの全てのシナリオにおけるベースラインモデルよりも優れた一般化能力を一貫して強調している。
提案したモデルは,BLSフレームワークのノイズやアウトラヤ処理能力を高めるための,有望なソリューションを提供する。
提案されたモデルのソースコードリンクはhttps://github.com/mtanveer1/IF-BLSで公開されている。
In the realm of data classification, broad learning system (BLS) has proven to be a potent tool that utilizes a layer-by-layer feed-forward neural network. However, the traditional BLS treats all samples as equally significant, which makes it less robust and less effective for real-world datasets with noises and outliers. To address this issue, we propose fuzzy broad learning system (F-BLS) and the intuitionistic fuzzy broad learning system (IF-BLS) models that confront challenges posed by the noise and outliers present in the dataset and enhance overall robustness. Employing a fuzzy membership technique, the proposed F-BLS model embeds sample neighborhood information based on the proximity of each class center within the inherent feature space of the BLS framework. Furthermore, the proposed IF-BLS model introduces intuitionistic fuzzy concepts encompassing membership, non-membership, and score value functions. IF-BLS strategically considers homogeneity and heterogeneity in sample neighborhoods in the kernel space. We evaluate the performance of proposed F-BLS and IF-BLS models on UCI benchmark datasets with and without Gaussian noise. As an application, we implement the proposed F-BLS and IF-BLS models to diagnose Alzheimer's disease (AD). Experimental findings and statistical analyses consistently highlight the superior generalization capabilities of the proposed F-BLS and IF-BLS models over baseline models across all scenarios. The proposed models offer a promising solution to enhance the BLS framework's ability to handle noise and outliers. The source code link of the proposed model is available at https://github.com/mtanveer1/IF-BLS. | 翻訳日:2024-05-15 01:32:16 公開日:2024-05-11 |
# Co(ve)rtex:ストレージチャネルとしてのMLモデルとその(ミス)応用
Co(ve)rtex: ML Models as storage channels and their (mis-)applications ( http://arxiv.org/abs/2307.08811v3 ) ライセンス: Link先を確認 | Md Abdullah Al Mamun, Quazi Mishkatul Alam, Erfan Shayegani, Pedram Zaree, Ihsen Alouani, Nael Abu-Ghazaleh, | (参考訳) 機械学習(ML)モデルは、一般性をサポートし、過剰適合を避けるために過パラメータ化される。
これらのパラメータの状態は、この状態がプライマリモデルに干渉しないことを前提としたプライマリモデルに関して、本質的には「不注意」である。
ハードウェアシステムとソフトウェアシステムの両方では、不注意な状態と未定義の振る舞いが重大な脆弱性の原因であることが示されている。
本稿では,この問題に対する新たな情報理論的視点を提案する。我々はMLモデルを,過パラメータ化に伴って増加する容量を持つ記憶チャネルと考える。
具体的には、トレーニング時に任意の情報をモデルに埋め込む送信機について検討する。
利用可能な未使用パラメータの数に基づいて、チャネルの容量の上限を導出する。
次に、攻撃者が許可するプリミティブをブラックボックスで書き読みます。
一 トレーニングデータを送信側で増強し、モデル内に最適化された方法で保存すること。
(ii) モデルがデプロイされた後に問い合わせて読むこと。
また,情報記憶の秘密性を考慮に入れた新たな問題も検討する。
具体的には,書き込みプリミティブに使用されるデータ拡張が,初期(ベースラインタスク)分布による分散シフトを最小限に抑える,新たな制約を導入する。
この制約は、初期タスクとの"干渉"のレベルを導入し、それによってチャネルの有効容量を制限する。
そこで我々は、ML固有の置換に基づく誤り訂正プロトコルを含む、このケースにおけるキャパシティ向上のための最適化を開発する。
この問題のモデリングはMLの潜在的な脆弱性をよりよく理解し緩和するための新しいツールを提供すると我々は信じている。
Machine learning (ML) models are overparameterized to support generality and avoid overfitting. The state of these parameters is essentially a "don't-care" with respect to the primary model provided that this state does not interfere with the primary model. In both hardware and software systems, don't-care states and undefined behavior have been shown to be sources of significant vulnerabilities. In this paper, we propose a new information theoretic perspective of the problem; we consider the ML model as a storage channel with a capacity that increases with overparameterization. Specifically, we consider a sender that embeds arbitrary information in the model at training time, which can be extracted by a receiver with a black-box access to the deployed model. We derive an upper bound on the capacity of the channel based on the number of available unused parameters. We then explore black-box write and read primitives that allow the attacker to:(i) store data in an optimized way within the model by augmenting the training data at the transmitter side, and (ii) to read it by querying the model after it is deployed. We also consider a new version of the problem which takes information storage covertness into account. Specifically, to obtain storage covertness, we introduce a new constraint such that the data augmentation used for the write primitives minimizes the distribution shift with the initial (baseline task) distribution. This constraint introduces a level of "interference" with the initial task, thereby limiting the channel's effective capacity. Therefore, we develop optimizations to improve the capacity in this case, including a novel ML-specific substitution based error correction protocol. We believe that the proposed modeling of the problem offers new tools to better understand and mitigate potential vulnerabilities of ML, especially in the context of increasingly large models. | 翻訳日:2024-05-15 01:32:16 公開日:2024-05-11 |
# Google Quantum AI実験における相互作用するマイクロ波光子のバウンド状態のロバスト性と最終的に遅い崩壊
Robustness and eventual slow decay of bound states of interacting microwave photons in the Google Quantum AI experiment ( http://arxiv.org/abs/2307.11164v2 ) ライセンス: Link先を確認 | Federica Maria Surace, Olexei Motrunich, | (参考訳) 可積分モデルは、崩壊することなく無限に伝播できる安定励起の存在によって特徴づけられる。
これには、祝福されたXXZスピンチェインモデルにおける多重磁気バウンド状態と、その可積分フロケ状態が含まれる。
Floquetモデルを実現する最近のGoogle Quantum AI実験(A. Morvan et al , Nature 612, 240 (2022))では、統合性が壊れた場合でも、このような集合的な励起が持続していることが示されている。
本稿では,実験で実現したモデルのスペクトルを,正確な対角化と物理的議論を用いて検討する。
積分可能モデルの正確な有界状態の子孫に対応する孤立バンドは、幅広いシステムサイズでスペクトルで明らかに観測可能である。
しかし, 固有状態の局在特性の数値解析により, 境界状態が熱力学的限界で不安定になることが示唆された。
崩壊率の摂動的推定は、大きなシステムサイズに対する最終的な不安定性の予測と一致する。
Integrable models are characterized by the existence of stable excitations that can propagate indefinitely without decaying. This includes multi-magnon bound states in the celebrated XXZ spin chain model and its integrable Floquet counterpart. A recent Google Quantum AI experiment [A. Morvan et al., Nature 612, 240 (2022)] realizing the Floquet model demonstrated the persistence of such collective excitations even when the integrability is broken: this observation is at odds with the expectation of ergodic dynamics in generic non-integrable systems. We here study the spectrum of the model realized in the experiment using exact diagonalization and physical arguments. We find that isolated bands corresponding to the descendants of the exact bound states of the integrable model are clearly observable in the spectrum for a large range of system sizes. However, our numerical analysis of the localization properties of the eigenstates suggests that the bound states become unstable in the thermodynamic limit. A perturbative estimate of the decay rate agrees with the prediction of an eventual instability for large system sizes. | 翻訳日:2024-05-15 01:22:32 公開日:2024-05-11 |
# AudioLDM 2: 自己教師付き事前学習によるホロスティック音声生成学習
AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining ( http://arxiv.org/abs/2308.05734v3 ) ライセンス: Link先を確認 | Haohe Liu, Yi Yuan, Xubo Liu, Xinhao Mei, Qiuqiang Kong, Qiao Tian, Yuping Wang, Wenwu Wang, Yuxuan Wang, Mark D. Plumbley, | (参考訳) 音声生成は、音声、音楽、音響効果などの様々な種類のオーディオに共通するが、それぞれのタイプのデザインモデルは、他のタイプのものと大きく異なる特定の目的やバイアスを慎重に考慮する必要がある。
本稿では,音声生成の統一的な視点に近づけるために,音声・音楽・音響効果生成のための同じ学習手法を用いた枠組みを提案する。
本フレームワークでは,音声の汎用表現「LOA(Language of Audio)」を導入している。
任意のオーディオは、自己教師付き事前訓練された表現学習モデルであるAudioMAEに基づいてLOAに変換できる。
生成過程において、GPT-2モデルを用いて任意のモダリティをLOAに変換し、LOAに条件付き遅延拡散モデルを用いて自己教師付き音声生成学習を行う。
提案フレームワークは, 文脈内学習能力, 自己教師付き事前学習型オーディオマインダ, 潜時拡散モデルなどの利点を自然にもたらす。
テキスト・トゥ・オーディオ、テキスト・トゥ・ミュージック、テキスト・トゥ・音声の主要なベンチマークの実験は、以前のアプローチに対する最先端または競合的なパフォーマンスを示している。
私たちのコード、事前トレーニングされたモデル、デモはhttps://audioldm.github.io/audioldm2.comで公開されています。
Although audio generation shares commonalities across different types of audio, such as speech, music, and sound effects, designing models for each type requires careful consideration of specific objectives and biases that can significantly differ from those of other types. To bring us closer to a unified perspective of audio generation, this paper proposes a framework that utilizes the same learning method for speech, music, and sound effect generation. Our framework introduces a general representation of audio, called "language of audio" (LOA). Any audio can be translated into LOA based on AudioMAE, a self-supervised pre-trained representation learning model. In the generation process, we translate any modalities into LOA by using a GPT-2 model, and we perform self-supervised audio generation learning with a latent diffusion model conditioned on LOA. The proposed framework naturally brings advantages such as in-context learning abilities and reusable self-supervised pretrained AudioMAE and latent diffusion models. Experiments on the major benchmarks of text-to-audio, text-to-music, and text-to-speech demonstrate state-of-the-art or competitive performance against previous approaches. Our code, pretrained model, and demo are available at https://audioldm.github.io/audioldm2. | 翻訳日:2024-05-15 01:22:32 公開日:2024-05-11 |
# コミュニケーションゲームのための大規模言語モデル探索:Werewolfに関する実証的研究
Exploring Large Language Models for Communication Games: An Empirical Study on Werewolf ( http://arxiv.org/abs/2309.04658v2 ) ライセンス: Link先を確認 | Yuzhuang Xu, Shuo Wang, Peng Li, Fuwen Luo, Xiaolong Wang, Weidong Liu, Yang Liu, | (参考訳) 自然言語通信に大きく依存する不完全な情報ゲームと呼ばれるコミュニケーションゲームは、経済学、社会科学、人工知能といった分野において重要な研究価値を持っている。
本研究では,コミュニケーションゲームにおいて大規模言語モデル(LLM)をどう扱うかという問題について検討し,それに応じてチューニング不要なフレームワークを提案する。
提案手法はLLMの凍結を保ち,過去のコミュニケーションや経験の検索とリフレクションに頼っている。
代表的で広く研究されているコミュニケーションゲーム『Werewolf』に関する実証的研究は、我々のフレームワークがLLMのパラメータを調整せずに効果的にWerewolfゲームをプレイできることを実証している。
さらに重要なことは、我々の実験で戦略的行動が出現し始めており、コミュニケーションゲームや関連するドメインでLSMを関与させるための実りある旅になることを示唆している。
Communication games, which we refer to as incomplete information games that heavily depend on natural language communication, hold significant research value in fields such as economics, social science, and artificial intelligence. In this work, we explore the problem of how to engage large language models (LLMs) in communication games, and in response, propose a tuning-free framework. Our approach keeps LLMs frozen, and relies on the retrieval and reflection on past communications and experiences for improvement. An empirical study on the representative and widely-studied communication game, ``Werewolf'', demonstrates that our framework can effectively play Werewolf game without tuning the parameters of the LLMs. More importantly, strategic behaviors begin to emerge in our experiments, suggesting that it will be a fruitful journey to engage LLMs in communication games and associated domains. | 翻訳日:2024-05-15 01:22:32 公開日:2024-05-11 |
# Score-based Diffusion in Latent Space を用いた混合型タブラルデータ合成
Mixed-Type Tabular Data Synthesis with Score-based Diffusion in Latent Space ( http://arxiv.org/abs/2310.09656v3 ) ライセンス: Link先を確認 | Hengrui Zhang, Jiani Zhang, Balasubramaniam Srinivasan, Zhengyuan Shen, Xiao Qin, Christos Faloutsos, Huzefa Rangwala, George Karypis, | (参考訳) 表型データ生成の最近の進歩は、合成データ品質を大幅に向上させた。
しかし,表データの分布が複雑に変化していることや,表データのデータタイプが混在していることから,表データへの拡散モデルの拡張は困難である。
本稿では,変分オートエンコーダ(VAE)の潜在空間内での拡散モデルを利用して,表層データを合成する手法であるTabsynを紹介する。
提案したTabsynの主な利点は,(1)単一統一空間に変換してカラム間関係を明示的に捉えることによって,データ型を広い範囲で扱えること,(2)高品質な合成データ生成を支援するために潜伏埋め込みの分布を最適化すること,(3)既存の拡散法よりもはるかに少ないリバースステップと高速な合成速度を実現すること,などである。
5つのメトリクスを持つ6つのデータセットに対する大規模な実験は、Tabsynが既存のメソッドより優れていることを示している。
具体的には、最も競争力のあるベースラインと比較して、カラムワイド分布とペアワイドカラム相関推定においてエラー率を86%と67%に削減する。
Recent advances in tabular data generation have greatly enhanced synthetic data quality. However, extending diffusion models to tabular data is challenging due to the intricately varied distributions and a blend of data types of tabular data. This paper introduces Tabsyn, a methodology that synthesizes tabular data by leveraging a diffusion model within a variational autoencoder (VAE) crafted latent space. The key advantages of the proposed Tabsyn include (1) Generality: the ability to handle a broad spectrum of data types by converting them into a single unified space and explicitly capture inter-column relations; (2) Quality: optimizing the distribution of latent embeddings to enhance the subsequent training of diffusion models, which helps generate high-quality synthetic data, (3) Speed: much fewer number of reverse steps and faster synthesis speed than existing diffusion-based methods. Extensive experiments on six datasets with five metrics demonstrate that Tabsyn outperforms existing methods. Specifically, it reduces the error rates by 86% and 67% for column-wise distribution and pair-wise column correlation estimations compared with the most competitive baselines. | 翻訳日:2024-05-15 01:12:47 公開日:2024-05-11 |
# レコメンデーションにおけるジェネレーティブエージェントについて
On Generative Agents in Recommendation ( http://arxiv.org/abs/2310.10108v2 ) ライセンス: Link先を確認 | An Zhang, Yuxin Chen, Leheng Sheng, Xiang Wang, Tat-Seng Chua, | (参考訳) 今日の情報発信の基盤はレコメンダシステムだが、オフラインメトリクスとオンラインパフォーマンスの切り離しは、彼らの開発を著しく妨げている。
この課題に対処するために,我々は,Large Language Models (LLMs) による人間レベルのインテリジェンスにおける最近のブレークスルーに乗じて,レコメンデーションシミュレータを構想する。
本稿では,レコメンデータシステムに特化されたユーザプロファイル,メモリ,アクションモジュールを備えたLCMを用いた生成エージェントを活用したユーザシミュレータであるAgent4Recを提案する。
特に、これらのエージェントのプロファイルモジュールは、実世界のデータセット(例えばMovieLens、Steam、Amazon-Book)を使用して初期化され、ユーザのユニークな味覚と社会的特性をキャプチャし、メモリモジュールは、事実と感情の両方の記憶をログし、感情駆動リフレクションメカニズムに統合される。
各エージェントはページ単位でパーソナライズされたレコメンデーションモデルと対話し、事前に実装されたコラボレーティブフィルタリングベースのレコメンデーションアルゴリズムに依存する。
エージェント4Recの大規模かつ多面的な評価は、エージェント間の整合性と偏りとユーザ個人の好みの両方を強調している。
単なる性能比較の他に,フィルタバブル効果のエミュレートや,推奨タスクにおける因果関係の解明など,洞察に富んだ実験についても検討する。
私たちのコードはhttps://github.com/LehengTHU/Agent4Rec.comで公開されています。
Recommender systems are the cornerstone of today's information dissemination, yet a disconnect between offline metrics and online performance greatly hinders their development. Addressing this challenge, we envision a recommendation simulator, capitalizing on recent breakthroughs in human-level intelligence exhibited by Large Language Models (LLMs). We propose Agent4Rec, a user simulator in recommendation, leveraging LLM-empowered generative agents equipped with user profile, memory, and actions modules specifically tailored for the recommender system. In particular, these agents' profile modules are initialized using real-world datasets (e.g. MovieLens, Steam, Amazon-Book), capturing users' unique tastes and social traits; memory modules log both factual and emotional memories and are integrated with an emotion-driven reflection mechanism; action modules support a wide variety of behaviors, spanning both taste-driven and emotion-driven actions. Each agent interacts with personalized recommender models in a page-by-page manner, relying on a pre-implemented collaborative filtering-based recommendation algorithm. We delve into both the capabilities and limitations of Agent4Rec, aiming to explore an essential research question: ``To what extent can LLM-empowered generative agents faithfully simulate the behavior of real, autonomous humans in recommender systems?'' Extensive and multi-faceted evaluations of Agent4Rec highlight both the alignment and deviation between agents and user-personalized preferences. Beyond mere performance comparison, we explore insightful experiments, such as emulating the filter bubble effect and discovering the underlying causal relationships in recommendation tasks. Our codes are available at https://github.com/LehengTHU/Agent4Rec. | 翻訳日:2024-05-15 01:12:47 公開日:2024-05-11 |
# AdaptiX - 補助ロボットにおける共有制御アプリケーションの開発と評価のための遷移型XRフレームワーク
AdaptiX -- A Transitional XR Framework for Development and Evaluation of Shared Control Applications in Assistive Robotics ( http://arxiv.org/abs/2310.15887v2 ) ライセンス: Link先を確認 | Max Pascher, Felix Ferdinand Goldau, Kirill Kronhardt, Udo Frese, Jens Gerken, | (参考訳) 移動性障害のある人々に力を与える努力と、一般市民による技術受容の増大により、協調ロボットアームなどの補助技術が人気を博している。
しかし、彼らの大きな成功は、ユーザビリティの問題、特に自律的な継続性に沿ったユーザ入力とソフトウェア制御の相違によって制限されている。
これを解決するために、共有制御の概念は、目標とするユーザ自律性と特定のレベルのコンピュータ支援を組み合わせる機会を提供する。
本稿では,高解像度シミュレーション環境における共有制御アプリケーションの開発と評価を目的とした,フリーかつオープンソースのAdaptiX XRフレームワークを提案する。
初期のフレームワークは、仮想現実感(VR)の例を含むシミュレーションされたロボットアーム、複数の標準制御インタフェース、特殊な記録/再生システムで構成されている。
AdaptiXは特定の研究ニーズに対して容易に拡張することができ、人間のロボットインタラクション(HRI)研究者は、アイデア、プロトタイピング、評価の初期段階で実際の物理的なロボットアームを必要とすることなく、新しいインタラクション方法、介入戦略、マルチモーダルフィードバックテクニックを迅速に設計し、テストすることができる。
また、ロボット・オペレーティング・システム(ROS)の統合により、シミュレーションと現実のギャップをなくすことなく、実際のロボットアームをPhysicalTwinアプローチで制御することができる。
本稿では,AdaptiXの能力と限界を概観し,その枠組みに基づく3つの研究分野について述べる。
AdaptiXはhttps://adaptix.robot-research.deでアクセスできる。
With the ongoing efforts to empower people with mobility impairments and the increase in technological acceptance by the general public, assistive technologies, such as collaborative robotic arms, are gaining popularity. Yet, their widespread success is limited by usability issues, specifically the disparity between user input and software control along the autonomy continuum. To address this, shared control concepts provide opportunities to combine the targeted increase of user autonomy with a certain level of computer assistance. This paper presents the free and open-source AdaptiX XR framework for developing and evaluating shared control applications in a high-resolution simulation environment. The initial framework consists of a simulated robotic arm with an example scenario in Virtual Reality (VR), multiple standard control interfaces, and a specialized recording/replay system. AdaptiX can easily be extended for specific research needs, allowing Human-Robot Interaction (HRI) researchers to rapidly design and test novel interaction methods, intervention strategies, and multi-modal feedback techniques, without requiring an actual physical robotic arm during the early phases of ideation, prototyping, and evaluation. Also, a Robot Operating System (ROS) integration enables the controlling of a real robotic arm in a PhysicalTwin approach without any simulation-reality gap. Here, we review the capabilities and limitations of AdaptiX in detail and present three bodies of research based on the framework. AdaptiX can be accessed at https://adaptix.robot-research.de. | 翻訳日:2024-05-15 01:02:54 公開日:2024-05-11 |
# 隠れたサイテーションが科学に本当の影響を与えている
Hidden Citations Obscure True Impact in Science ( http://arxiv.org/abs/2310.16181v2 ) ライセンス: Link先を確認 | Xiangyi Meng, Onur Varol, Albert-László Barabási, | (参考訳) 参考までに、科学者がこれまでの知識に頼っているメカニズムは、最近広く使われ、科学的な影響の誤った測定方法に変わった。
しかし、発見が常識となると、引用は法人化によって消滅する。
これは隠れた引用の概念につながり、それを具現化した出版物に言及することなく、発見への明確なテキストクレジットを表現している。
ここでは、隠れた引用を体系的に識別するために、各論文の全文に適用された教師なしの解釈可能な機械学習を頼りにしている。
その結果,出版の場や規律によらず,暗黙の引用が引用数よりも多いことが判明した。
隠れ引用の頻度は、引用数ではなく、原稿のテキスト中の話題に関する談話の程度によって引き起こされていることを示し、より議論されるほど発見であることを示す。
隠れた引用は、文献測度が発見の真の影響を定量化するための限られた視点を与え、科学的コーパスの全文から知識を抽出する必要性を高めていることを示している。
References, the mechanism scientists rely on to signal previous knowledge, lately have turned into widely used and misused measures of scientific impact. Yet, when a discovery becomes common knowledge, citations suffer from obliteration by incorporation. This leads to the concept of hidden citation, representing a clear textual credit to a discovery without a reference to the publication embodying it. Here, we rely on unsupervised interpretable machine learning applied to the full text of each paper to systematically identify hidden citations. We find that for influential discoveries hidden citations outnumber citation counts, emerging regardless of publishing venue and discipline. We show that the prevalence of hidden citations is not driven by citation counts, but rather by the degree of the discourse on the topic within the text of the manuscripts, indicating that the more discussed is a discovery, the less visible it is to standard bibliometric analysis. Hidden citations indicate that bibliometric measures offer a limited perspective on quantifying the true impact of a discovery, raising the need to extract knowledge from the full text of the scientific corpus. | 翻訳日:2024-05-15 01:02:54 公開日:2024-05-11 |
# タブラルデータクエリと可視化のための自然言語インタフェース:サーベイ
Natural Language Interfaces for Tabular Data Querying and Visualization: A Survey ( http://arxiv.org/abs/2310.17894v2 ) ライセンス: Link先を確認 | Weixu Zhang, Yifei Wang, Yuanfeng Song, Victor Junqiu Wei, Yuxing Tian, Yiyan Qi, Jonathan H. Chan, Raymond Chi-Wing Wong, Haiqin Yang, | (参考訳) 自然言語処理の出現は、ユーザが表形式のデータと対話する方法に革命をもたらし、従来のクエリ言語や手作業によるプロットから、より直感的な言語ベースのインターフェースへの移行を可能にした。
ChatGPTなどの大規模言語モデル(LLM)の台頭は、この分野をさらに進歩させ、自然言語処理技術のための新たな道を開いた。
本調査では,自然言語クエリによるデータ操作を可能にする,表形式のデータクエリと可視化のための自然言語インタフェースの概要を概観する。
自然言語からSQLクエリやデータ視覚化コマンドへの変換を容易にする重要な技術であるセマンティック解析に特に重点を置いて、これらのインターフェースの基礎となる概念とテクニックを紹介します。
次に、データセット、方法論、メトリクス、システム設計の観点から、Text-to-SQLおよびText-to-Vis問題の最近の進歩を掘り下げます。
この中には、LSMの影響を深く掘り下げ、その強み、制限、将来の改善の可能性を強調している。
本調査は,大規模言語モデルの時代におけるデータインタラクションのための自然言語インタフェースの開発と適用に関心のある研究者や実践者を対象としたロードマップの提供を目的とする。
The emergence of natural language processing has revolutionized the way users interact with tabular data, enabling a shift from traditional query languages and manual plotting to more intuitive, language-based interfaces. The rise of large language models (LLMs) such as ChatGPT and its successors has further advanced this field, opening new avenues for natural language processing techniques. This survey presents a comprehensive overview of natural language interfaces for tabular data querying and visualization, which allow users to interact with data using natural language queries. We introduce the fundamental concepts and techniques underlying these interfaces with a particular emphasis on semantic parsing, the key technology facilitating the translation from natural language to SQL queries or data visualization commands. We then delve into the recent advancements in Text-to-SQL and Text-to-Vis problems from the perspectives of datasets, methodologies, metrics, and system designs. This includes a deep dive into the influence of LLMs, highlighting their strengths, limitations, and potential for future improvements. Through this survey, we aim to provide a roadmap for researchers and practitioners interested in developing and applying natural language interfaces for data interaction in the era of large language models. | 翻訳日:2024-05-15 01:02:54 公開日:2024-05-11 |
# 夫婦の引き抜きが可能:病院・居住者問題に対する新しいアルゴリズムと難易度
Couples can be tractable: New algorithms and hardness results for the Hospitals / Residents problem with Couples ( http://arxiv.org/abs/2311.00405v2 ) ライセンス: Link先を確認 | Gergely Csáji, David Manlove, Iain McBride, James Trimble, | (参考訳) 本稿では, ソリューションが安定なマッチングや, 存在しない報告であるクープルズ問題 ({\sc hrc}) について検討する。
我々は、カップルの嗜好がサブレスポンシブである(つまり、あるメンバーがより良い病院に切り替える場合、カップルが改善する)とサブコンプリート(つまり、双方のメンバーに個別に受け入れられる病院のペアは、カップルに共同で受け入れられる)のインスタンスに還元することで、ほぼ実現可能な安定なマッチング(病院の容量を少なくとも1で調整する)を見つけることができる新しい多項式時アルゴリズムを提案する。
また、双対市場であるサブレスポンシブでサブコンプリートなインスタンスで {\sc hrc} の多項式時間アルゴリズムを提案する。
また,本アルゴリズムは,グラフがループを持つ多重グラフである安定なbマッチング問題の多項式時間可解性についても示唆する。
我々はアルゴリズムをいくつかの難しい結果で補完する。
サブレスポンシブでサブコンプリートなカップルを持つ {\sc hrc} は、他の強い制約があってもNPハードであることを示す。
また、デュアルマーケットを持つ {\sc hrc} は、複数の同時制限の下でNPハードであることを示す。
最後に、$m^{1-\varepsilon}$, for any $\varepsilon>0$, where $m$ is the total length of the hospitals' preference list, if if each couple may to only one pair of hospitals。
我々の多項式時間可解性は、既知のcsc hrcの抽出可能なインスタンスのクラスを大きく拡大し、なぜ国家居住者マッチングプログラムのようなカップルが今日まで成功し続けるのかを、長期にわたるエントリーレベルの労働市場が示している。
In this paper we study the {\sc Hospitals / Residents problem with Couples} ({\sc hrc}), where a solution is a stable matching or a report that none exists. We present a novel polynomial-time algorithm that can find a near-feasible stable matching (adjusting the hospitals' capacities by at most 1) in an {\sc hrc} instance where the couples' preferences are sub-responsive (i.e., if one member switches to a better hospital, than the couple also improves) and sub-complete (i.e., each pair of hospitals that are individually acceptable to both members are jointly acceptable for the couple) by reducing it to an instance of the {\sc Stable Fixtures} problem. We also present a polynomial-time algorithm for {\sc hrc} in a sub-responsive, sub-complete instance that is a Dual Market, or where all couples are one of several possible types. We show that our algorithm also implies the polynomial-time solvability of a stable b-matching problem, where the underlying graph is a multigraph with loops. We complement our algorithms with several hardness results. We show that {\sc hrc} with sub-responsive and sub-complete couples is NP-hard, even with other strong restrictions. We also show that {\sc hrc} with a Dual Market is NP-hard under several simultaneous restrictions. Finally, we show that the problem of finding a matching with the minimum number of blocking pairs in {\sc hrc} is not approximable within $m^{1-\varepsilon}$, for any $\varepsilon>0$, where $m$ is the total length of the hospitals' preference lists, unless P=NP, even if each couple applies to only one pair of hospitals. Our polynomial-time solvability results greatly expand the class of known tractable instances of {\sc hrc} and provide additional evidence as to why long-standing entry-level labour markets that allow couples such as the National Resident Matching Program remain successful to this day. | 翻訳日:2024-05-15 01:02:54 公開日:2024-05-11 |
# 身近なAIのためのシーン駆動型マルチモーダル知識グラフ構築
Scene-Driven Multimodal Knowledge Graph Construction for Embodied AI ( http://arxiv.org/abs/2311.03783v2 ) ライセンス: Link先を確認 | Song Yaoxian, Sun Penglei, Liu Haoyu, Li Zhixu, Song Wei, Xiao Yanghua, Zhou Xiaofang, | (参考訳) Embodied AIは、人工知能とロボット工学において最も人気のある研究の1つであり、人間に仕える現実世界のエージェント(つまりロボット)の知能を効果的に向上させることができる。
環境知識は、エージェントが周囲を理解し、様々なオープンな世界で正しい判断をする上で重要である。
現在、具体的タスクのための知識ベースが欠落しており、既存の作業の多くはエージェントの知性を高めるために一般的な知識ベースまたは事前訓練されたモデルを使用している。
従来の知識ベースでは、データ収集の能力とコストが不足している。
事前訓練されたモデルでは、知識の不確実性と保守の難しさに直面します。
本研究では,シーン駆動型マルチモーダル知識グラフ(Scene-MMKG)の構築手法を提案する。
知識表現のための統合されたシーン知識注入フレームワークが導入された。
提案手法の利点を評価するため,典型的な屋内ロボット機能(マニピュレーションとモビリティ)を考慮したScene-MMKGのインスタンス化を行った。
特徴比較は,我々のインスタントなManipMob-MMKGは,データ収集効率と知識品質において大きな優位性を持っていることを示している。
実験結果から, モデル構造を複雑に再設計することなく, インタライズしたManipMob-MMKGを用いた知識強化手法により, 明らかに性能を向上できることが示された。
私たちのプロジェクトはhttps://sites.google.com/view/manipmob-mmkgで見られます。
Embodied AI is one of the most popular studies in artificial intelligence and robotics, which can effectively improve the intelligence of real-world agents (i.e. robots) serving human beings. Scene knowledge is important for an agent to understand the surroundings and make correct decisions in the varied open world. Currently, knowledge base for embodied tasks is missing and most existing work use general knowledge base or pre-trained models to enhance the intelligence of an agent. For conventional knowledge base, it is sparse, insufficient in capacity and cost in data collection. For pre-trained models, they face the uncertainty of knowledge and hard maintenance. To overcome the challenges of scene knowledge, we propose a scene-driven multimodal knowledge graph (Scene-MMKG) construction method combining conventional knowledge engineering and large language models. A unified scene knowledge injection framework is introduced for knowledge representation. To evaluate the advantages of our proposed method, we instantiate Scene-MMKG considering typical indoor robotic functionalities (Manipulation and Mobility), named ManipMob-MMKG. Comparisons in characteristics indicate our instantiated ManipMob-MMKG has broad superiority in data-collection efficiency and knowledge quality. Experimental results on typical embodied tasks show that knowledge-enhanced methods using our instantiated ManipMob-MMKG can improve the performance obviously without re-designing model structures complexly. Our project can be found at https://sites.google.com/view/manipmob-mmkg | 翻訳日:2024-05-15 01:02:54 公開日:2024-05-11 |
# 実代数的品種数とそれを超えるもの:改良された境界と応用
Covering Number of Real Algebraic Varieties and Beyond: Improved Bounds and Applications ( http://arxiv.org/abs/2311.05116v3 ) ライセンス: Link先を確認 | Yifan Zhang, Joe Kileel, | (参考訳) 被覆数は近似アルゴリズム、ランダム化次元減少法、滑らか化複雑性解析などの開発に使用される強力なツールである。
本稿では、ユークリッド空間における多数の集合の被覆数、すなわち実代数多様体、多項式写像の像および多項式の変数の数と次数の観点から半代数集合の上限を証明する。
境界はヨムディン・コンテの最もよく知られた一般化を著しく改善し、我々の証明ははるかに単純である。
特に、この結果は多項式写像と半代数集合の像の管状近傍の体積に新たな境界を与える。
本稿では,3つの計算応用における結果のパワーについて説明する。
まず,低位CPテンソルの被覆数に準最適境界を導出し,それらの近似特性を定量化し,テンソル次元の減少と再構成のための重要な欠片を埋める。
第二に、多項式最適化問題のランダム化スケッチに要求される次元に制約があることを証明し、解の品質を犠牲にすることなく、ランダム化によってどれだけの計算を節約できるかを制御した。
最後に、有理またはReLUアクティベーション関数を持つディープニューラルネットワークに対する一般化エラー境界を推定し、機械学習の文献において最もよく知られた結果を改善したり、マッチングしたりしながら、一般化エラーに対するアーキテクチャ選択の影響を定量化する。
Covering numbers are a powerful tool used in the development of approximation algorithms, randomized dimension reduction methods, smoothed complexity analysis, and others. In this paper we prove upper bounds on the covering number of numerous sets in Euclidean space, namely real algebraic varieties, images of polynomial maps and semialgebraic sets in terms of the number of variables and degrees of the polynomials involved. The bounds remarkably improve the best known general bound by Yomdin-Comte, and our proof is much more straightforward. In particular, our result gives new bounds on the volume of the tubular neighborhood of the image of a polynomial map and a semialgebraic set, where results for varieties by Lotz and Basu-Lerario are not directly applicable. We illustrate the power of the result on three computational applications. Firstly, we derive a near-optimal bound on the covering number of low rank CP tensors, quantifying their approximation properties and filling in an important missing piece of theory for tensor dimension reduction and reconstruction. Secondly, we prove a bound on the required dimension for the randomized sketching of polynomial optimization problems, which controls how much computation can be saved through randomization without sacrificing solution quality. Finally, we deduce generalization error bounds for deep neural networks with rational or ReLU activation functions, improving or matching the best known results in the machine learning literature while helping to quantify the impact of architecture choice on generalization error. | 翻訳日:2024-05-15 01:02:54 公開日:2024-05-11 |
# 騒音下でのキャリブレーション次元低減ハイパーパラメータ
Calibrating dimension reduction hyperparameters in the presence of noise ( http://arxiv.org/abs/2312.02946v4 ) ライセンス: Link先を確認 | Justin Lin, Julia Fukuyama, | (参考訳) 次元削減ツールの目的は、高次元データの低次元表現を構築することである。
これらのツールは、ノイズ低減、可視化、計算コストの削減など、様々な理由で使用されている。
しかし、他のモデリング問題で議論される根本的な問題は、しばしば次元の縮小で見過ごされる -- 過度に適合する。
他のモデリング問題の文脈では、機能選択、クロスバリデーション、正規化といった手法がオーバーフィッティングと闘うために用いられるが、次元縮小を適用する際に行われるような予防措置はめったにない。
最も一般的な2つの非線形次元削減手法であるt-SNEとUMAPは、性能を評価する際に信号とノイズの組み合わせとしてデータを認識できない。
これらの手法は通常、信号だけでなくデータ全体をキャプチャするために校正される。
本稿では,過度パラメータの校正における雑音の認識の重要性を実証し,それを実現するためのフレームワークを提案する。
我々はこのフレームワークを用いて、t-SNE と UMAP を適用する際に、データに過度に適合するハイパーパラメータキャリブレーションが果たす役割を探求する。
より具体的には、前述したパープレキシティの値を示し、n_neighborsは小さすぎてノイズが過度に収まらない。
また、ノイズの存在下でハイパーパラメータをキャリブレーションするワークフローも提供しています。
The goal of dimension reduction tools is to construct a low-dimensional representation of high-dimensional data. These tools are employed for a variety of reasons such as noise reduction, visualization, and to lower computational costs. However, there is a fundamental issue that is discussed in other modeling problems that is often overlooked in dimension reduction -- overfitting. In the context of other modeling problems, techniques such as feature-selection, cross-validation, and regularization are employed to combat overfitting, but rarely are such precautions taken when applying dimension reduction. Prior applications of the two most popular non-linear dimension reduction methods, t-SNE and UMAP, fail to acknowledge data as a combination of signal and noise when assessing performance. These methods are typically calibrated to capture the entirety of the data, not just the signal. In this paper, we demonstrate the importance of acknowledging noise when calibrating hyperparameters and present a framework that enables users to do so. We use this framework to explore the role hyperparameter calibration plays in overfitting the data when applying t-SNE and UMAP. More specifically, we show previously recommended values for perplexity and n_neighbors are too small and overfit the noise. We also provide a workflow others may use to calibrate hyperparameters in the presence of noise. | 翻訳日:2024-05-15 00:53:00 公開日:2024-05-11 |
# 身体的インテリジェンスのための自己モデル:階層的低次元表現を用いたフルボディヒト筋骨格系とロコモーション制御のモデル化
Self Model for Embodied Intelligence: Modeling Full-Body Human Musculoskeletal System and Locomotion Control with Hierarchical Low-Dimensional Representation ( http://arxiv.org/abs/2312.05473v3 ) ライセンス: Link先を確認 | Kaibo He, Chenhui Zuo, Jing Shao, Yanan Sui, | (参考訳) ヒトの筋骨格系のモデリングと制御は、ヒトの運動機能を理解し、インボディードインテリジェンスを開発し、ヒトとロボットの相互作用システムを最適化するために重要である。
しかし、現在のヒト筋骨格モデルは、限られた身体部位に限られており、しばしば筋肉の数が減少している。
また、合理的な人間の動きを生成するために600以上の筋肉を制御できるアルゴリズムが欠如している。
このギャップを埋めるために、90個の体節、206個の関節、700個の筋腱ユニットを備えた筋骨格モデル(MS-Human-700)を構築し、全身動態のシミュレーションと様々なデバイスとの相互作用を可能にする。
低次元表現と階層的深部強化学習を用いた新しいアルゴリズムを開発し、最先端のフルボディ制御を実現する。
我々は,実際の人間の移動データを用いたシミュレーションにおいて,モデルとアルゴリズムの有効性を検証した。
筋骨格モデルは、その制御アルゴリズムとともに、人間のモーションコントロールのより深い理解と対話型ロボットの設計を促進するために研究コミュニティに提供される。
プロジェクトページ:https://lnsgroup.cc/research/MS-Human-700
Modeling and control of the human musculoskeletal system is important for understanding human motor functions, developing embodied intelligence, and optimizing human-robot interaction systems. However, current human musculoskeletal models are restricted to a limited range of body parts and often with a reduced number of muscles. There is also a lack of algorithms capable of controlling over 600 muscles to generate reasonable human movements. To fill this gap, we build a musculoskeletal model (MS-Human-700) with 90 body segments, 206 joints, and 700 muscle-tendon units, allowing simulation of full-body dynamics and interaction with various devices. We develop a new algorithm using low-dimensional representation and hierarchical deep reinforcement learning to achieve state-of-the-art full-body control. We validate the effectiveness of our model and algorithm in simulations with real human locomotion data. The musculoskeletal model, along with its control algorithm, will be made available to the research community to promote a deeper understanding of human motion control and better design of interactive robots. Project page: https://lnsgroup.cc/research/MS-Human-700 | 翻訳日:2024-05-15 00:53:00 公開日:2024-05-11 |
# LPR:大規模言語モデルに基づくプログラム削減
LPR: Large Language Models-Aided Program Reduction ( http://arxiv.org/abs/2312.13064v3 ) ライセンス: Link先を確認 | Mengxiao Zhang, Yongqiang Tian, Zhenyang Xu, Yiwen Dong, Shin Hwei Tan, Chengnian Sun, | (参考訳) プログラムリダクションは、バグトリガプログラムを自動的に最小化することで、コンパイラのデバッグを容易にする一般的なテクニックである。
既存のプログラムリダクションテクニックは、言語全体(例えばPersesやVulcan)で汎用的であるか、C-Reduceのような言語固有の機能を使って特定の言語用に特別にカスタマイズされている。
しかし、複数の言語にまたがる汎用性と、プログラムの削減における個々の言語への特異性とのバランスは、まだ解明されていない。
本稿では,LLMを用いて複数の言語に対して言語固有のプログラム還元を行う最初の手法であるLPRを提案する。
中心となる洞察は、言語ジェネリックな構文レベルプログラムの削減(例えばPerses)と、LLMによって学習された言語固有のセマンティックレベルプログラムの変換の両方を活用することである。
言語ジェネリック・プログラム・リデューサは、プログラムを1-ツリー・ミニマリティに効率的に還元するが、LLMは学習セマンティクスを通じてプログラムを効果的に変換し、言語ジェネリック・プログラム・リデューサに新たな還元機会を公開し、プログラムをさらに削減する。
3つの言語(C、Rust、JavaScript)にわたる50のベンチマークに関する広範な評価では、最先端の言語ジェネリックプログラムリデューサであるVulcanよりも、LPRの実用性と優位性を強調しています。
有効性のために、LPRは、C、Rust、JavaScriptのベンチマークで24.93%、4.47%、11.71%の小さなプログラムを生成することでVulcanを上回っている。
さらに、LPRとVulcanは互いに補完する可能性を実証している。
C プログラムに対する LPR の出力に Vulcan を用いることで,C-Reduce で削減されたプログラムに匹敵するプログラムサイズを実現する。
効率性のために、LPRは10.77%、34.88%、36.96%の時間をVulcanより短くし、C、Rust、JavaScriptのすべてのベンチマークを別々に完了する。
Program reduction is a prevalent technique to facilitate compilers' debugging by automatically minimizing bug-triggering programs. Existing program reduction techniques are either generic across languages (e.g., Perses and Vulcan) or specifically customized for one certain language by employing language-specific features, like C-Reduce. However, striking the balance between generality across multiple programming languages and specificity to individual languages in program reduction is yet to be explored. This paper proposes LPR, the first technique utilizing LLMs to perform language-specific program reduction for multiple languages. The core insight is to utilize both the language-generic syntax level program reduction (e.g., Perses) and the language-specific semantic level program transformations learned by LLMs. Alternately, language-generic program reducers efficiently reduce programs into 1-tree-minimality, which is small enough to be manageable for LLMs; LLMs effectively transform programs via the learned semantics to expose new reduction opportunities for the language-generic program reducers to further reduce the programs. Our extensive evaluation on 50 benchmarks across three languages (C, Rust, and JavaScript) has highlighted LPR's practicality and superiority over Vulcan, the state-of-the-art language-generic program reducer. For effectiveness, LPR surpasses Vulcan by producing 24.93%, 4.47%, and 11.71% smaller programs on benchmarks in C, Rust and JavaScript. Moreover, LPR and Vulcan have demonstrated their potential to complement each other. By using Vulcan on LPR's output for C programs, we achieve program sizes comparable to those reduced by C-Reduce. For efficiency, LPR takes 10.77%, 34.88%, 36.96% less time than Vulcan to finish all benchmarks in C, Rust and JavaScript, separately. | 翻訳日:2024-05-15 00:43:11 公開日:2024-05-11 |
# 確率軌道予測のための注意型ソーシャルグラフトランスネットワーク
Attention-aware Social Graph Transformer Networks for Stochastic Trajectory Prediction ( http://arxiv.org/abs/2312.15881v2 ) ライセンス: Link先を確認 | Yao Liu, Binghao Li, Xianzhi Wang, Claude Sammut, Lina Yao, | (参考訳) 軌道予測は、自律運転やロボット工学など、様々なインテリジェントな技術の基本である。
歩行者や車両の移動予測は、緊急ブレーキ、衝突の低減、交通安全の改善に役立つ。
現在の軌道予測研究は、複雑な社会的相互作用、高ダイナミクス、多モード性といった問題に直面している。
特に、長期予測にはまだ制限がある。
マルチモーダル軌道予測のためのアテンション対応ソーシャルグラフトランスフォーマーネットワークを提案する。
グラフ畳み込みネットワークとトランスフォーマーネットワークを結合し,設計した積み重ね・インターセプション手法により時空間グラフから安定解像度の擬似画像を生成する。
さらに、歩行者と車両の混在を伴うシナリオにおいて、ソーシャルインタラクション情報を処理するための注意認識モジュールを設計する。
このように、グラフとトランスフォーマーの利点、すなわち、任意の数の隣人に情報を集約する能力と、複雑な時間依存のデータ処理を実行する能力は維持する。
歩行者,車両,混合軌道を含むデータセットについて,それぞれ実験を行った。
本研究は, 各種測定値の変位誤差を最小化し, 衝突の可能性を著しく低減することを示した。
また,本モデルが最終変位誤差を効果的に低減し,長期にわたって予測できることに注意が必要である。
Trajectory prediction is fundamental to various intelligent technologies, such as autonomous driving and robotics. The motion prediction of pedestrians and vehicles helps emergency braking, reduces collisions, and improves traffic safety. Current trajectory prediction research faces problems of complex social interactions, high dynamics and multi-modality. Especially, it still has limitations in long-time prediction. We propose Attention-aware Social Graph Transformer Networks for multi-modal trajectory prediction. We combine Graph Convolutional Networks and Transformer Networks by generating stable resolution pseudo-images from Spatio-temporal graphs through a designed stacking and interception method. Furthermore, we design the attention-aware module to handle social interaction information in scenarios involving mixed pedestrian-vehicle traffic. Thus, we maintain the advantages of the Graph and Transformer, i.e., the ability to aggregate information over an arbitrary number of neighbors and the ability to perform complex time-dependent data processing. We conduct experiments on datasets involving pedestrian, vehicle, and mixed trajectories, respectively. Our results demonstrate that our model minimizes displacement errors across various metrics and significantly reduces the likelihood of collisions. It is worth noting that our model effectively reduces the final displacement error, illustrating the ability of our model to predict for a long time. | 翻訳日:2024-05-15 00:43:11 公開日:2024-05-11 |
# ソーシャルメディアテキストからのプロンプトによるメンタルヘルススクリーニング
Prompt-based mental health screening from social media text ( http://arxiv.org/abs/2401.05912v2 ) ライセンス: Link先を確認 | Wesley Ramos dos Santos, Ivandre Paraboni, | (参考訳) 本稿では,ソーシャルメディアテキストの大規模でノイズの多いデータセットから,迅速なメンタルヘルススクリーニング手法を提案する。
我々の方法は GPT 3.5 を使用する。
タスクに関連性のあるパブリッシュを識別し、簡単なbacker-of-wordsテキスト分類器を使用して実際のユーザラベルを予測する。
結果は、BERTのエキスパート分類器と組み合わせて行われ、トレーニングコストのごく一部しか発生しないことがわかった。
This article presents a method for prompt-based mental health screening from a large and noisy dataset of social media text. Our method uses GPT 3.5. prompting to distinguish publications that may be more relevant to the task, and then uses a straightforward bag-of-words text classifier to predict actual user labels. Results are found to be on pair with a BERT mixture of experts classifier, and incurring only a fraction of its training costs. | 翻訳日:2024-05-15 00:33:27 公開日:2024-05-11 |
# 小さい言語モデルは自己修正できる
Small Language Model Can Self-correct ( http://arxiv.org/abs/2401.07301v2 ) ライセンス: Link先を確認 | Haixia Han, Jiaqing Liang, Jie Shi, Qianyu He, Yanghua Xiao, | (参考訳) ChatGPTのようなジェネレーティブ言語モデル(LM)は、様々な下流タスクで顕著なパフォーマンスを示している。
それにもかかわらず、最も顕著な欠点の1つは、自信のあるトーンで不正確または偽の情報を生成することである。
従来の研究では、高度なパイプラインを考案し、大規模なLMを誘導して自己補正の能力を示すよう促している。
しかし、大きなLMは、自然に人間のように全てのステップを完了させるのではなく、その答えを個別に検証し、修正するよう明示的に促される。
さらに、これらの複雑なプロンプトは、小さなLMが従うことが極めて困難である。
本稿では,60億個のパラメータを持つ小さなLMであっても,自己トリガー方式でLMの初期出力を補正することを目的として,生成言語モデルに \underline{I}ntrinsic \underline{S}elf-\underline{C}orrection (ISC) を導入する。
具体的には、自己補正データを構築するパイプラインを考案し、細調整による本質的な自己補正機能を備えたモデルの実現を目的として、部分的アンサーマスキング(PAM)を提案する。
我々は,60億から13億のパラメータサイズを持つLMを用いて,コモンセンス推論と事実知識推論を含む2つのタスクで実験を行う。
ISCを用いて生成した出力は自己補正なしで生成した出力よりも優れていた。
我々は,本質的な自己正当性を付与することで,小型のLMの出力品質をさらに向上できると考えている。
Generative Language Models (LMs) such as ChatGPT have exhibited remarkable performance across various downstream tasks. Nevertheless, one of their most prominent drawbacks is generating inaccurate or false information with a confident tone. Previous studies have devised sophisticated pipelines and prompts to induce large LMs to exhibit the capability for self-correction. However, large LMs are explicitly prompted to verify and modify its answers separately rather than completing all steps spontaneously like humans. Moreover, these complex prompts are extremely challenging for small LMs to follow. In this paper, we introduce the \underline{I}ntrinsic \underline{S}elf-\underline{C}orrection (ISC) in generative language models, aiming to correct the initial output of LMs in a self-triggered manner, even for those small LMs with 6 billion parameters. Specifically, we devise a pipeline for constructing self-correction data and propose Partial Answer Masking (PAM), aiming to endow the model with the capability for intrinsic self-correction through fine-tuning. We conduct experiments using LMs with parameters sizes ranging from 6 billion to 13 billion in two tasks, including commonsense reasoning and factual knowledge reasoning. Our experiments demonstrate that the outputs generated using ISC outperform those generated without self-correction. We believe that the output quality of even small LMs can be further improved by empowering them with the ability to intrinsic self-correct. | 翻訳日:2024-05-15 00:33:27 公開日:2024-05-11 |
# オプトエレクトロメカニクスシステムにおける電波周波数の高感度センシング
Optics-assisted enhanced sensing at radio-frequencies in an optoelectromechanical system ( http://arxiv.org/abs/2401.07887v2 ) ライセンス: Link先を確認 | Najmeh Eshaqi-Sani, Stefano Zippilli, David Vitali, | (参考訳) 無線周波数でのシステム応答を検知することで、オプトエレクトロメカニカルシステムのパラメータの弱い変動を検出する際の感度を高める手法について検討する。
1つまたは2つのメカニカルモードが光キャビティとrf共振器の相互作用を媒介するセットアップを考える。
このシステムは、系素子間で熱ゆらぎが再分配されるインピーダンスマッチング方式で動作することができ、特にrf出力ノイズを量子真空ノイズレベルまで低減することができる。
この効果は,高熱雑音のレジームにおいてもパラメータ変動を検出する感度を高めるために有効であることを示す。
我々は、rf共振器の容量変化を検出する際に、このプロトコルの性能を特徴付ける。
We investigate a scheme to enhance the sensitivity in detecting weak variations in a parameter of an optoelectromechanical system by detecting the system response at radio-frequencies. We consider a setup, where either one or two mechanical modes mediate the interaction between an optical cavity and an rf-resonator. This system can be operated in a regime of impedance matching where thermal fluctuations are redistributed among the system elements, and, in particular, rf output noise can be reduced to the quantum vacuum noise level. We show that this effect can be used to boost the sensitivity in detecting parameter variations also in regimes of high thermal noise. We characterize the performance of this protocol in detecting variations in the capacitance of the rf resonator. | 翻訳日:2024-05-15 00:33:27 公開日:2024-05-11 |
# GPT4Ego:ゼロショットエゴセントリック行動認識のための事前学習モデルの可能性
GPT4Ego: Unleashing the Potential of Pre-trained Models for Zero-Shot Egocentric Action Recognition ( http://arxiv.org/abs/2401.10039v2 ) ライセンス: Link先を確認 | Guangzhao Dai, Xiangbo Shu, Wenhao Wu, Rui Yan, Jiachao Zhang, | (参考訳) 大規模データセットで事前トレーニングされた視覚言語モデル(VLM)は、様々な視覚認識タスクにおいて印象的なパフォーマンスを示している。
この進歩は、ZES-EAR(Zero-Shot Egocentric Action Recognition)における顕著なパフォーマンスの道を開く。
通常、VLMはZS-EARをグローバルなビデオテキストマッチングタスクとして扱う。
VLMを用いたZS-EARの洗練されたアプローチを提案し、エゴセントリックなビデオにおけるリッチなセマンティクスとコンテキストの詳細を活かした、きめ細かな概念記述アライメントを強調した。
本稿では,視覚と言語間の概念や記述の微妙な整合性を高めることを目的とした,ZS-EAR のための直感的で驚くほど強力な VLM フレームワークである GPT4Ego を紹介する。
GPT4Egoは、EPIC-KITCHENS-100(33.2%、+9.4%)、EGTEA(39.6%、+5.5%)、CharadesEgo(31.5%、+2.6%)の3つの大規模なビデオベンチマークにおいて、既存のVLMを著しく上回っている。
Vision-Language Models (VLMs), pre-trained on large-scale datasets, have shown impressive performance in various visual recognition tasks. This advancement paves the way for notable performance in Zero-Shot Egocentric Action Recognition (ZS-EAR). Typically, VLMs handle ZS-EAR as a global video-text matching task, which often leads to suboptimal alignment of vision and linguistic knowledge. We propose a refined approach for ZS-EAR using VLMs, emphasizing fine-grained concept-description alignment that capitalizes on the rich semantic and contextual details in egocentric videos. In this paper, we introduce GPT4Ego, a straightforward yet remarkably potent VLM framework for ZS-EAR, designed to enhance the fine-grained alignment of concept and description between vision and language. Extensive experiments demonstrate GPT4Ego significantly outperforms existing VLMs on three large-scale egocentric video benchmarks, i.e., EPIC-KITCHENS-100 (33.2%, +9.4%), EGTEA (39.6%, +5.5%), and CharadesEgo (31.5%, +2.6%). | 翻訳日:2024-05-15 00:33:27 公開日:2024-05-11 |
# LocMoE: 大規模言語モデルトレーニングのための低オーバーヘッドMoE
LocMoE: A Low-Overhead MoE for Large Language Model Training ( http://arxiv.org/abs/2401.13920v2 ) ライセンス: Link先を確認 | Jing Li, Zhijie Sun, Xuan He, Li Zeng, Yi Lin, Entong Li, Binfan Zheng, Rongqian Zhao, Xin Chen, | (参考訳) Mixtures-of-Experts (MoE) モデルは,大規模言語モデル (LLM) のための分散統合学習手法である。
しかし、MoEの性能は、負荷不均衡とAll-to-All通信のレイテンシによって制限され、また、専門家の能力が大きいため、比較的冗長な計算が可能である。
負荷の不均衡は、特定の専門家を一貫して選択する既存のルーティングポリシーによって生じる可能性がある。
All-to-Allプロシージャにおけるノード間通信は、トレーニング時間を大幅に延長する。
上記の性能問題を緩和するために,ノード間部分通信をノード内通信に変換することで,負荷バランスと局所性を組み合わせた新しいルーティング方式を提案する。
特に、専門家のゲーティングウェイトと割り当てられたトークンとの間の最大角偏差を計算し、専門家の能力に最低限の閾値があることを解明する。
我々はこれらの修正を、マルチレベルルーティングとAscendクラスタ上での実験を行うMindSporeフレームワークに基づくPanGu-Sigmaモデルに移植する。
実験の結果、提案されたLocMoEは、モデル精度に影響を与えることなく、ハッシュルータやスイッチルータのような古典的なルータと比較して、エポックあたりのトレーニング時間を12.68%削減し、22.24%に削減した。
The Mixtures-of-Experts (MoE) model is a widespread distributed and integrated learning method for large language models (LLM), which is favored due to its ability to sparsify and expand models efficiently. However, the performance of MoE is limited by load imbalance and high latency of All-to-All communication, along with relatively redundant computation owing to large expert capacity. Load imbalance may result from existing routing policies that consistently tend to select certain experts. The frequent inter-node communication in the All-to-All procedure also significantly prolongs the training time. To alleviate the above performance problems, we propose a novel routing strategy that combines load balance and locality by converting partial inter-node communication to that of intra-node. Notably, we elucidate that there is a minimum threshold for expert capacity, calculated through the maximal angular deviation between the gating weights of the experts and the assigned tokens. We port these modifications on the PanGu-Sigma model based on the MindSpore framework with multi-level routing and conduct experiments on Ascend clusters. The experiment results demonstrate that the proposed LocMoE reduces training time per epoch by 12.68% to 22.24% compared to classical routers, such as hash router and switch router, without impacting the model accuracy. | 翻訳日:2024-05-15 00:33:27 公開日:2024-05-11 |
# 関数エンコーダによるゼロショット強化学習
Zero-Shot Reinforcement Learning via Function Encoders ( http://arxiv.org/abs/2401.17173v2 ) ライセンス: Link先を確認 | Tyler Ingebrand, Amy Zhang, Ufuk Topcu, | (参考訳) 強化学習(RL)は多くの逐次決定問題を解くことができるが、関連するタスク間でゼロショット転送を実現することは依然として課題である。
この難しさは、エージェントが前述したタスクとどのように関連しているかを理解するために、現在のタスクの適切な表現を見つけることである。
ゼロショット転送を実現するために,学習された非線形基底関数の重み付け結合として関数を表現する表現学習アルゴリズムである関数エンコーダを導入する。
関数エンコーダを用いて報酬関数または遷移関数を表現することにより、エージェントは、コヒーレントベクトル表現を介して、現在のタスクが以前見られたタスクとどのように関連しているかに関する情報を得る。
これにより、エージェントは、追加のトレーニングなしで、実行時に関連するタスク間の転送を達成できる。
基本RLアルゴリズムを関数エンコーダタスク表現で拡張することにより、3つのRLフィールドにおける最先端データ効率、漸近性能、およびトレーニング安定性を示す。
Although reinforcement learning (RL) can solve many challenging sequential decision making problems, achieving zero-shot transfer across related tasks remains a challenge. The difficulty lies in finding a good representation for the current task so that the agent understands how it relates to previously seen tasks. To achieve zero-shot transfer, we introduce the function encoder, a representation learning algorithm which represents a function as a weighted combination of learned, non-linear basis functions. By using a function encoder to represent the reward function or the transition function, the agent has information on how the current task relates to previously seen tasks via a coherent vector representation. Thus, the agent is able to achieve transfer between related tasks at run time with no additional training. We demonstrate state-of-the-art data efficiency, asymptotic performance, and training stability in three RL fields by augmenting basic RL algorithms with a function encoder task representation. | 翻訳日:2024-05-15 00:23:41 公開日:2024-05-11 |
# デコヒーレンスのない部分空間は波動関数の崩壊を防げない
Decoherence-Free Subspaces Cannot Prevent the Collapse of Wave Functions ( http://arxiv.org/abs/2402.00112v2 ) ライセンス: Link先を確認 | Alfred Li, Herschel A. Rabitz, Benjamin Lienhard, | (参考訳) 効率的な量子情報処理は、拡張されたコヒーレンスと正確な制御に依存している。
量子プロセッサを取り巻く限界を調査することは、その進歩に不可欠である。
その動作では、不注意な波動関数の崩壊が問題となる。
デコヒーレンス自由部分空間は理論上特定の非ユニタリ力学を緩和できるが、有望な道を示す。
しかし, 本研究は, 自発波動関数の崩壊防止が不可能であることを明らかにする。
したがって、自然崩壊速度は量子系の物理的コヒーレンスにとって重要な制限要因となり、コヒーレンスを維持するための選択肢を能動的エラー訂正に制限する。
Efficacious quantum information processing relies on extended coherence and precise control. Investigating the limitations surrounding quantum processors is vital for their advancement. In their operation, one challenge is inadvertent wave function collapse. Decoherence-free subspaces, theoretically capable of mitigating specific non unitary dynamics, present a promising avenue. However, our study unveils their inability to safeguard against spontaneous wave function collapse. Thus, the spontaneous-collapse rate becomes a critical limiting factor for quantum systems' physical coherence, restricting the options for maintaining coherence to active error correction. | 翻訳日:2024-05-15 00:23:41 公開日:2024-05-11 |
# データ効率のよいグラフ学習に関する調査研究
A Survey of Data-Efficient Graph Learning ( http://arxiv.org/abs/2402.00447v2 ) ライセンス: Link先を確認 | Wei Ju, Siyu Yi, Yifan Wang, Qingqing Long, Junyu Luo, Zhiping Xiao, Ming Zhang, | (参考訳) グラフ構造化データは、ソーシャルネットワークから生化学分析まで、様々な現実世界のシステムの基盤となっている。
グラフニューラルネットワークはこの種のデータモデリングの習熟度を示しているが、その成功はしばしば大量のラベル付きデータに依存しており、アノテーションリソースが限られている現実的なシナリオでは課題となっている。
この問題に対処するため,低リソース環境下でのグラフ機械学習の性能向上に多大な努力が注がれている。
本稿では,研究フロンティアとしてData-Efficient Graph Learning(DEGL)という新しい概念を紹介し,DEGLの現在の進歩をまとめた最初の調査を紹介する。
私たちは、大きなラベル付きデータでトレーニングモデルに固有の課題を強調し、DEGLへの探索の道を開くことで開始します。
次に、このトピックに関する最近の進歩を、自己教師付きグラフ学習、半教師付きグラフ学習、少数ショットグラフ学習など、いくつかの重要な側面から体系的にレビューする。
また,今後の研究の方向性を述べるとともに,グラフ機械学習の進化に寄与する。
Graph-structured data, prevalent in domains ranging from social networks to biochemical analysis, serve as the foundation for diverse real-world systems. While graph neural networks demonstrate proficiency in modeling this type of data, their success is often reliant on significant amounts of labeled data, posing a challenge in practical scenarios with limited annotation resources. To tackle this problem, tremendous efforts have been devoted to enhancing graph machine learning performance under low-resource settings by exploring various approaches to minimal supervision. In this paper, we introduce a novel concept of Data-Efficient Graph Learning (DEGL) as a research frontier, and present the first survey that summarizes the current progress of DEGL. We initiate by highlighting the challenges inherent in training models with large labeled data, paving the way for our exploration into DEGL. Next, we systematically review recent advances on this topic from several key aspects, including self-supervised graph learning, semi-supervised graph learning, and few-shot graph learning. Also, we state promising directions for future research, contributing to the evolution of graph machine learning. | 翻訳日:2024-05-15 00:23:41 公開日:2024-05-11 |
# TexShape: 言語モデルのための情報理論文埋め込み
TexShape: Information Theoretic Sentence Embedding for Language Models ( http://arxiv.org/abs/2402.05132v2 ) ライセンス: Link先を確認 | Kaan Kale, Homa Esfahanizadeh, Noel Elias, Oguzhan Baser, Muriel Medard, Sriram Vishwanath, | (参考訳) データボリュームの指数的な増加と、特に機械学習分野におけるデータ集約型アプリケーションの出現により、資源利用、プライバシ、公平性に関する懸念が最重要になっている。
本稿では,データのテキスト領域に焦点をあて,情報理論のレンズを通して文を最適化された表現に符号化する際の課題に対処する。
特に、Kulback-Leibler分散のDonsker-Varadhan定義を用いて、相互情報の経験的推定を用いる。
我々の手法は、この推定を利用して、(タスクベースの)データ圧縮や機密情報のフィルタリング、プライバシーと公正性の強化のために、TexShapeと呼ばれる情報理論文の埋め込みを訓練する。
本研究では,情報理論圧縮と相互情報推定のためのニューラルネットワークによって補完される初期テキスト表現のためのベンチマーク言語モデルを用いる。
本実験は, 圧縮データを用いてトレーニングした下流モデルの予測精度の観点から, 最大目標情報と低感度情報を保存する上で, 顕著な進歩を示すものである。
With the exponential growth in data volume and the emergence of data-intensive applications, particularly in the field of machine learning, concerns related to resource utilization, privacy, and fairness have become paramount. This paper focuses on the textual domain of data and addresses challenges regarding encoding sentences to their optimized representations through the lens of information-theory. In particular, we use empirical estimates of mutual information, using the Donsker-Varadhan definition of Kullback-Leibler divergence. Our approach leverages this estimation to train an information-theoretic sentence embedding, called TexShape, for (task-based) data compression or for filtering out sensitive information, enhancing privacy and fairness. In this study, we employ a benchmark language model for initial text representation, complemented by neural networks for information-theoretic compression and mutual information estimations. Our experiments demonstrate significant advancements in preserving maximal targeted information and minimal sensitive information over adverse compression ratios, in terms of predictive accuracy of downstream models that are trained using the compressed data. | 翻訳日:2024-05-15 00:13:55 公開日:2024-05-11 |
# Mercury: LLMコード合成の効率ベンチマーク
Mercury: An Efficiency Benchmark for LLM Code Synthesis ( http://arxiv.org/abs/2402.07844v2 ) ライセンス: Link先を確認 | Mingzhe Du, Anh Tuan Luu, Bin Ji, Qian Liu, See-Kiong Ng, | (参考訳) コードのための大規模言語モデル(Code-LLMs)を評価する最近の取り組みの中で、既存のベンチマークは主に関数的正確性に焦点を当てており、計算効率の重要性を見越している。
このギャップを埋めるために、Code-LLMの最初の計算効率ベンチマークであるMercuryを提示する。
1,889のPythonタスクで構成され、それぞれがランタイムディストリビューションをサポートする適切なソリューションを備えている。
この分布に基づいて,関数の正しさと計算効率を同時に反映する,実行時毎のパススコアを算出する新たな測度Beyondを導入する。
Mercuryでは、トップのCode-LLMsがPassで67%、Beyondで50%以下を達成できる。
理想的なBeyondスコアがPassスコアと一致していることを考えると、Code-LLMは機能的に正しいコードを生成する素晴らしい能力を示すが、その効率には注目すべきギャップが残っている。
最後に、我々の実証実験により、直接選好最適化(DPO)が計算効率を高めるための堅牢なベースラインとして機能していることが判明した。
Amidst the recent strides in evaluating Large Language Models for Code (Code-LLMs), existing benchmarks have mainly focused on functional correctness, overlooking the importance of computational efficiency. To fill the gap, we present Mercury, the first computational efficiency benchmark for Code-LLMs. It comprises 1,889 Python tasks, each with adequate solutions to support a runtime distribution. Based on the distribution, we introduce a new metric Beyond, which computes a runtime-percentile-weighted Pass score to reflect functional correctness and computational efficiency simultaneously. On Mercury, leading Code-LLMs can achieve 67% on Pass, while less than 50% on Beyond. Given that an ideal Beyond score would be aligned with the Pass score, it indicates that while Code-LLMs exhibit impressive capabilities in generating functionally correct code, there remains a notable gap in their efficiency. Finally, our empirical experiments reveal that Direct Preference Optimization (DPO) serves as a robust baseline for enhancing computational efficiency compared with Supervised Fine Tuning (SFT), which paves a promising avenue for future exploration of efficient code generation. | 翻訳日:2024-05-15 00:13:55 公開日:2024-05-11 |
# OneBit: 極低ビット大規模言語モデルを目指して
OneBit: Towards Extremely Low-bit Large Language Models ( http://arxiv.org/abs/2402.11295v2 ) ライセンス: Link先を確認 | Yuzhuang Xu, Xu Han, Zonghan Yang, Shuo Wang, Qingfu Zhu, Zhiyuan Liu, Weidong Liu, Wanxiang Che, | (参考訳) モデル量子化は、低ビット幅の値を用いてモデルの重み行列を表現する。
しかし、既存の量子化法はビット幅が極端に小さくなると深刻な性能劣化に悩まされ、4ビットまたは8ビットの値を用いてモデルを量子化する。
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
本研究の目的は、1ビットの量子化対応トレーニング(QAT)フレームワークであるOneBitを導入し、LCMの量子化を改善する新しい1ビットパラメータ表現法と、QATフレームワークの収束速度を改善するための行列分解に基づく効果的なパラメータ初期化法を提案することである。
十分な実験結果から,OneBitは1ビットの重み行列のみを用いることで,堅牢なトレーニングプロセスで良好な性能(最低でも83%の非量子化性能)を達成できることが示唆された。
Model quantification uses low bit-width values to represent the weight matrices of models, which is a promising approach to reduce both storage and computational overheads of deploying highly anticipated LLMs. However, existing quantization methods suffer severe performance degradation when the bit-width is extremely reduced, and thus focus on utilizing 4-bit or 8-bit values to quantize models. This paper boldly quantizes the weight matrices of LLMs to 1-bit, paving the way for the extremely low bit-width deployment of LLMs. For this target, we introduce a 1-bit quantization-aware training (QAT) framework named OneBit, including a novel 1-bit parameter representation method to better quantize LLMs as well as an effective parameter initialization method based on matrix decomposition to improve the convergence speed of the QAT framework. Sufficient experimental results indicate that OneBit achieves good performance (at least 83% of the non-quantized performance) with robust training processes when only using 1-bit weight matrices. | 翻訳日:2024-05-15 00:13:55 公開日:2024-05-11 |
# 骨格表現からの管状形状再構成のための幾何学的アルゴリズム
A Geometric Algorithm for Tubular Shape Reconstruction from Skeletal Representation ( http://arxiv.org/abs/2402.12797v2 ) ライセンス: Link先を確認 | Guoqing Zhang, Yang Li, | (参考訳) 骨格表現から管状形状を復元するための新しいアプローチを提案する。
本手法では,全ての骨格点を全体として処理し,入力構造を複数のセグメントに分割する必要がない。
我々は,この管状形状を,ボクセル中心と物体との符号付き距離を簡単な幾何学的アルゴリズムで計算する,ボクセルハッシュ方式で切り離された符号付き距離関数(TSDF)として表現する。
提案手法は, 表面サンプリングスキームや大規模行列方程式の解法を含まないため, 他の手法と比較して管状形状再構成の高速かつエレガントな解法である。
提案手法の有効性と有効性を示す実験を行った。
コードはhttps://github.com/wlsdzyzl/Dragon.orgにある。
We introduce a novel approach for the reconstruction of tubular shapes from skeletal representations. Our method processes all skeletal points as a whole, eliminating the need for splitting input structure into multiple segments. We represent the tubular shape as a truncated signed distance function (TSDF) in a voxel hashing manner, in which the signed distance between a voxel center and the object is computed through a simple geometric algorithm. Our method does not involve any surface sampling scheme or solving large matrix equations, and therefore is a faster and more elegant solution for tubular shape reconstruction compared to other approaches. Experiments demonstrate the efficiency and effectiveness of the proposed method. Code is avaliable at https://github.com/wlsdzyzl/Dragon. | 翻訳日:2024-05-15 00:13:55 公開日:2024-05-11 |
# 物理制約付き多項式カオス展開による科学機械学習と不確実性定量化
Physics-constrained polynomial chaos expansion for scientific machine learning and uncertainty quantification ( http://arxiv.org/abs/2402.15115v2 ) ライセンス: Link先を確認 | Himanshu Sharma, Lukáš Novák, Michael D. Shields, | (参考訳) 本稿では,SciML(SciML)と不確実性定量化(UQ)の両タスクを実行するための代理モデリング手法として,物理制約付き多項式カオス拡張を提案する。
提案手法は,SciMLをUQにシームレスに統合し,SciMLタスクの不確かさを効果的に定量化し,SciMLを利用してUQ関連タスクにおける不確実性評価を改善する。
提案したサロゲートモデルは、関連する初期および境界条件の制約を伴う偏微分方程式(PDE)の制御、不等式型制約(例えば、単調性、凸性、非負性など)、および制限データを補うためのトレーニングプロセスにおける事前情報など、様々な物理的制約を効果的に組み込むことができる。
これにより、物理的に現実的な予測が保証され、サロゲートモデルをトレーニングするための高価な計算モデル評価の必要性が大幅に低減される。
さらに,提案手法は,出力の不確かさを効率的に推定する,組込み不確実性定量化(UQ)機能を備えている。
提案手法の有効性を示すために,決定論的・確率的パラメータを持つ線形・非線形PDE,複雑な物理系のデータ駆動サロゲートモデリング,確率場としてモデル化されたパラメータを持つ確率的システムのUQなど,多種多様な問題に適用する。
We present a novel physics-constrained polynomial chaos expansion as a surrogate modeling method capable of performing both scientific machine learning (SciML) and uncertainty quantification (UQ) tasks. The proposed method possesses a unique capability: it seamlessly integrates SciML into UQ and vice versa, which allows it to quantify the uncertainties in SciML tasks effectively and leverage SciML for improved uncertainty assessment during UQ-related tasks. The proposed surrogate model can effectively incorporate a variety of physical constraints, such as governing partial differential equations (PDEs) with associated initial and boundary conditions constraints, inequality-type constraints (e.g., monotonicity, convexity, non-negativity, among others), and additional a priori information in the training process to supplement limited data. This ensures physically realistic predictions and significantly reduces the need for expensive computational model evaluations to train the surrogate model. Furthermore, the proposed method has a built-in uncertainty quantification (UQ) feature to efficiently estimate output uncertainties. To demonstrate the effectiveness of the proposed method, we apply it to a diverse set of problems, including linear/non-linear PDEs with deterministic and stochastic parameters, data-driven surrogate modeling of a complex physical system, and UQ of a stochastic system with parameters modeled as random fields. | 翻訳日:2024-05-15 00:04:06 公開日:2024-05-11 |
# 双対対対角論におけるボットの熟達度を分解するための多分野的枠組み
A multidisciplinary framework for deconstructing bots' pluripotency in dualistic antagonism ( http://arxiv.org/abs/2402.15119v4 ) ライセンス: Link先を確認 | Wentao Xu, Kazutoshi Sasahara, Jianxun Chu, Bin Wang, Wenlu Fan, Zhiwen Hu, | (参考訳) 人為的社会ボットは、人間の言語コミュニケーションをエミュレートし、ソーシャルネットワークサービス(SNS)全体で有毒または炎症性コンテンツを生成するために設計されている。
ボットの拡散した誤報は、繰り返しの偽情報の暴露、政治的分極の増幅、民主的健康の妥協された指標、国民のアイデンティティの認識の変化、虚偽の社会的規範の伝播、時間の経過とともに集団記憶の操作といった複雑な要素を織り交ぜることで、社会的過程を微妙に再形成する可能性がある。
しかし、孤立SNS分析からハイブリダイズ、多言語、異種メディアエコロジーにまたがるボットの熟達度を補うことは、ボットの市民的言説に対する創発的リスクを特徴づけるための包括的なフレームワークの必要性を浮き彫りにしている。
本稿では、ボットの熟達度を特徴付けるための学際的枠組みを提案し、影響の定量化、ネットワークダイナミクスモニタリング、言語間特徴分析を取り入れた。
ロシア・ウクライナ紛争に関する地政学的談話に適用すると、言語間毒性のプロファイリングとネットワーク分析の結果、ハイブリッドSNSにおける親ロシア人および親ウクライナ人およびボットの時空間軌跡が解明された。
兵器化されたボットは主にXに住み、人間は主にソーシャルメディア戦争でRedditに住んでいた。
この厳密な枠組みは、ボットの多能性行動における言語間同質性と異質性を解明し、情報操作、エコーチャンバーの形成、およびアルゴリズム的に構造化された社会における集合記憶の現示の基礎となる相乗的人間ボット機構を明らかにする。
Anthropomorphic social bots are engineered to emulate human verbal communication and generate toxic or inflammatory content across social networking services (SNSs). Bot-disseminated misinformation could subtly yet profoundly reshape societal processes by complexly interweaving factors like repeated disinformation exposure, amplified political polarization, compromised indicators of democratic health, shifted perceptions of national identity, propagation of false social norms, and manipulation of collective memory over time. However, extrapolating bots' pluripotency across hybridized, multilingual, and heterogeneous media ecologies from isolated SNS analyses remains largely unknown, underscoring the need for a comprehensive framework to characterise bots' emergent risks to civic discourse. Here we propose an interdisciplinary framework to characterise bots' pluripotency, incorporating quantification of influence, network dynamics monitoring, and interlingual feature analysis. When applied to the geopolitical discourse around the Russo-Ukrainian conflict, results from interlanguage toxicity profiling and network analysis elucidated spatiotemporal trajectories of pro-Russian and pro-Ukrainian human and bots across hybrid SNSs. Weaponized bots predominantly inhabited X, while human primarily populated Reddit in the social media warfare. This rigorous framework promises to elucidate interlingual homogeneity and heterogeneity in bots' pluripotent behaviours, revealing synergistic human-bot mechanisms underlying regimes of information manipulation, echo chamber formation, and collective memory manifestation in algorithmically structured societies. | 翻訳日:2024-05-15 00:04:06 公開日:2024-05-11 |
# ライン上の非定常SQM/IST対応と${\cal CPT}/{\cal PT}$-不変なペアハミルトニアン
Non-stationary SQM/IST Correspondence and ${\cal CPT}/{\cal PT}$-invariant paired Hamiltonians on the line ( http://arxiv.org/abs/2402.19066v3 ) ライセンス: Link先を確認 | V. P. Berezovoj, A. J. Nurmagambetov, | (参考訳) 超対称量子力学と逆散乱変換の対応におけるいくつかのギャップを、ペア定常ハミルトニアンと非定常ハミルトニアンの場合に考慮して埋める。
本稿では,Goursat問題に対応する問題を定式化し,それを解決する非局所逆散乱変換のカーネルを明示的に構築する。
その結果、初期のエルミート的手法から非エルミート的ハミルトニアンを構成する方法を見つけ、これは両方のポテンシャルの実数値スペクトルの場合、${\cal CPT/PT}$-不変ハミルトニアンとのペア化につながる。
量子光学および光導波路技術への提案と非線形力学およびブラックホール物理との関連について概説する。
We fill some of existed gaps in the correspondence between Supersymmetric Quantum Mechanics and the Inverse Scattering Transform by extending the consideration to the case of paired stationary and non-stationary Hamiltonians. We formulate the corresponding to the case Goursat problem and explicitly construct the kernel of the non-local Inverse Scattering Transform, which solves it. As a result, we find the way of constructing non-hermitian Hamiltonians from the initially hermitian ones, that leads, in the case of real-valued spectra of both potentials, to pairing of ${\cal CPT/PT}$-invariant Hamiltonians. The relevance of our proposal to Quantum Optics and optical waveguides technology, as well as to non-linear dynamics and Black Hole Physics is briefly discussed. | 翻訳日:2024-05-15 00:04:06 公開日:2024-05-11 |
# 真のマルチパーティイト非局所および非極大絡み状態の自己検定
Self-testing of genuine multipartite non-local and non-maximally entangled states ( http://arxiv.org/abs/2403.00010v3 ) ライセンス: Link先を確認 | Ranendu Adhikary, | (参考訳) 自己検定により、量子系の内部動作に最小限の仮定で特徴づけることができるので、量子系の認証の最も強力な形式である。
既存の自己テストの文献では、最大に絡み合っていないが、真の多部非局所性を示す自己テスト状態は未解決の問題のままである。
これは、多体系において、真の多粒子非局所性は多粒子量子相関の最も強い形式として認識されているため、特に重要である。
本研究では,任意の人数の当事者を含むシナリオに対して,カベロ様のパラドックスを示す。
このパラドックスは、真のマルチパーティライト非局所性を検出するツールであり、パラドックスの極限を最も無視する状態の特定と自己検査を可能にし、非最大多重パーティライト絡み状態であることが判明した。
近年の結果 [\textit{\v{S}upi\'c et al , Nature Physics, 2023}] は、全ての量子状態の自己テストの手段としてネットワーク自己テストを提案するが、ここでは、真の非局所的および非最大エンタングル状態の自己テストを行うための標準自己テストフレームワーク内で運用する。
Self-testing enables the characterization of quantum systems with minimal assumptions on their internal working as such it represents the strongest form of certification for quantum systems. In the existing self-testing literature, self-testing states that are not maximally entangled, but exhibit genuine multipartite nonlocality, have remained an open problem. This is particularly important because, for many-body systems, genuine multipartite nonlocality has been recognized as the strongest form of multipartite quantum correlation. In this work, we present a Cabello-like paradox for scenarios involving an arbitrary number of parties. This paradox is a tool for detecting genuine multipartite nonlocality, allowing for the specific identification and self-testing of states that defy the paradox's limits the most, which turn out to be non-maximally multipartite entangled states. While recent results [\textit{\v{S}upi\'c et al., Nature Physics, 2023}] suggest network self-testing as a means to self-test all quantum states, here we operate within the standard self-testing framework to self-test genuine multipartite non-local and non-maximally entangled states. | 翻訳日:2024-05-15 00:04:06 公開日:2024-05-11 |
# 不確実性下におけるクレディブルニューラルネットワークサロゲートモデルの戦略的発見のための枠組み
A Framework for Strategic Discovery of Credible Neural Network Surrogate Models under Uncertainty ( http://arxiv.org/abs/2403.08901v2 ) ライセンス: Link先を確認 | Pratyush Kumar Singh, Kathryn A. Farrell-Maupin, Danial Faghihi, | (参考訳) 複雑な物理システムの高忠実度シミュレーションのためのデータ駆動サロゲートモデル開発におけるディープニューラルネットワークの広範な統合は、堅牢な不確実性定量化技術と信頼性評価手法にとって重要な必要性を強調し、連続的な意思決定におけるサロゲートモデルの信頼性を保証する。
本研究では,様々なニューラルネットワーククラスやアーキテクチャやハイパーパラメータの選択など,ポテンシャルモデルの空間内で予測型ニューラルネットワークに基づくサロゲートモデルを探索するための体系的枠組みを提供する。
このフレームワークは階層的ベイズ推定に基づいており、不確実性下での代理モデルの信頼性と予測信頼性を評価するためにモデル検証テストを採用している。
これらの原則を活用して、OPAL-サロゲートは、モデルの複雑さ、正確性、予測の不確実性の間のトレードオフのバランスをとるための、体系的で効率的な戦略を導入します。
ハイブリッドロケットモータにおける固体燃料のアブレーションのための断熱材および乱流燃焼流の多孔質材料の変形を含む2つのモデリング問題を通じて,OPALサロゲートの有効性を実証した。
The widespread integration of deep neural networks in developing data-driven surrogate models for high-fidelity simulations of complex physical systems highlights the critical necessity for robust uncertainty quantification techniques and credibility assessment methodologies, ensuring the reliable deployment of surrogate models in consequential decision-making. This study presents the Occam Plausibility Algorithm for surrogate models (OPAL-surrogate), providing a systematic framework to uncover predictive neural network-based surrogate models within the large space of potential models, including various neural network classes and choices of architecture and hyperparameters. The framework is grounded in hierarchical Bayesian inferences and employs model validation tests to evaluate the credibility and prediction reliability of the surrogate models under uncertainty. Leveraging these principles, OPAL-surrogate introduces a systematic and efficient strategy for balancing the trade-off between model complexity, accuracy, and prediction uncertainty. The effectiveness of OPAL-surrogate is demonstrated through two modeling problems, including the deformation of porous materials for building insulation and turbulent combustion flow for the ablation of solid fuels within hybrid rocket motors. | 翻訳日:2024-05-14 23:54:21 公開日:2024-05-11 |
# フラグ量子ビットを用いたシンドローム抽出回路のIBM量子ハードウェアへの応用
Effectiveness of the syndrome extraction circuit with flag qubits on IBM quantum hardware ( http://arxiv.org/abs/2403.10217v2 ) ライセンス: Link先を確認 | Younghun Kim, Hansol Kim, Jeongsoo Kang, Wonjae Choi, Younghun Kwon, | (参考訳) 量子コンピュータの利点を利用するには大規模量子回路が必要である。
現在の量子コンピュータは、量子回路の深さが増加するにつれて信頼性が低下している。
この制限を克服するため、量子誤り訂正符号が導入された。
Google[1, 2]と中性原子[3]量子コンピュータで量子エラー訂正符号が成功したことは発表されているが、IBMの量子コンピュータでは独自の重六角形構造による誤りの抑制が報告されていない。
この構造は接続を制限し、IBM量子コンピュータ上の量子エラー訂正符号はフラグ量子ビットを必要とする。
本稿では,IBM量子コンピュータ上でフラグ量子ビットを用いたシンドローム抽出回路の実装に成功したことを報告する。
さらに,量子誤り訂正符号の繰り返しコードをテストコードとして検討し,その有効性を示す。
データキュービットはシンドロームキュービットに隣接していないが、繰り返し符号の距離が3から9に増加するにつれて論理誤差は指数関数的に減少する。
データとシンドロームの量子ビットの間に2つのフラグ量子ビットが存在するとしても、距離が同様に増加するにつれて論理誤差は減少する。
これは、IBM量子コンピュータ上のフラグ量子ビットを用いたシンドローム抽出回路の実装が成功したことを確認する。
Large-scale quantum circuits are required to exploit the advantages of quantum computers. Present-day quantum computers have become less reliable with increasing depths of quantum circuits. To overcome this limitation, quantum error-correction codes have been introduced. Although the success of quantum error correction codes has been announced in Google[1, 2] and neutral atom[3] quantum computers, there have been no reports on IBM quantum computers showing error suppression owing to its unique heavy-hexagon structure. This structure restricts connectivity, and quantum error-correction codes on IBM quantum computers require flag qubits. Here, we report the successful implementation of a syndrome extraction circuit with flag qubits on IBM quantum computers. Moreover, we demonstrate its effectiveness by considering the repetition code as a test code among the quantum error-correcting codes. Even though the data qubit is not adjacent to the syndrome qubit, logical error rates diminish exponentially as the distance of the repetition code increases from three to nine. Even when two flag qubits exist between the data and syndrome qubits, the logical error rates decrease as the distance increases similarly. This confirms the successful implementation of the syndrome extraction circuit with flag qubits on the IBM quantum computer. | 翻訳日:2024-05-14 23:54:21 公開日:2024-05-11 |
# STG-Mamba:選択状態空間モデルによる時空間グラフ学習
STG-Mamba: Spatial-Temporal Graph Learning via Selective State Space Model ( http://arxiv.org/abs/2403.12418v3 ) ライセンス: Link先を確認 | Lincan Li, Hanchen Wang, Wenjie Zhang, Adelle Coster, | (参考訳) 時空間グラフ(STG)データは動的,異種,非定常的に特徴付けられ,空間時空間グラフ学習の継続的な課題に繋がる。
近年,STGネットワークのノード間の関係を模倣することにのみ焦点をあて,STGシステムに存在する固有の特徴をモデル化することの重要性を無視して,様々なGNNベースの手法が提案されている。
対照的に、現代の選択的状態空間モデル(SSSM)は、STGネットワークをシステムとして扱う新しいアプローチを示し、時間次元にわたってSTGシステムの動的状態進化を慎重に探求する。
本研究では,STGネットワークをシステムとして扱うことによってSTG学習のための強力な選択的状態空間モデルを活用するための最初の探索として空間時空間グラフマンバ(STG-Mamba)を導入し,選択されたSTG潜在機能に正確にフォーカスするために空間時空間選択的状態空間モジュール(ST-S3M)を用いる。
さらに、選択状態空間モデルの設定下でSTGデータをモデル化するGNNの能力を強化するために、学習可能なカルマンフィルタリング統計理論に基づくアプローチにより、異なる時間的粒度からSTG埋め込みを動的に統合し、アップグレードするカルマンフィルタグラフニューラルネットワーク(KFGN)を提案する。
3つのベンチマークSTG予測データセットを用いて,STG-Mambaの性能優位性と計算効率を実証した。
STG予測性能の点で既存の最先端手法を超えるだけでなく、大規模グラフネットワークの計算ボトルネックを効果的に軽減し、FLOPの計算コストとテスト推論時間を削減している。
実装コードは: \url{https://github.com/LincanLi98/STG-Mamba} で利用可能である。
Spatial-Temporal Graph (STG) data is characterized as dynamic, heterogenous, and non-stationary, leading to the continuous challenge of spatial-temporal graph learning. In the past few years, various GNN-based methods have been proposed to solely focus on mimicking the relationships among node individuals of the STG network, ignoring the significance of modeling the intrinsic features that exist in STG system over time. In contrast, modern Selective State Space Models (SSSMs) present a new approach which treat STG Network as a system, and meticulously explore the STG system's dynamic state evolution across temporal dimension. In this work, we introduce Spatial-Temporal Graph Mamba (STG-Mamba) as the first exploration of leveraging the powerful selective state space models for STG learning by treating STG Network as a system, and employing the Spatial-Temporal Selective State Space Module (ST-S3M) to precisely focus on the selected STG latent features. Furthermore, to strengthen GNN's ability of modeling STG data under the setting of selective state space models, we propose Kalman Filtering Graph Neural Networks (KFGN) for dynamically integrate and upgrade the STG embeddings from different temporal granularities through a learnable Kalman Filtering statistical theory-based approach. Extensive empirical studies are conducted on three benchmark STG forecasting datasets, demonstrating the performance superiority and computational efficiency of STG-Mamba. It not only surpasses existing state-of-the-art methods in terms of STG forecasting performance, but also effectively alleviate the computational bottleneck of large-scale graph networks in reducing the computational cost of FLOPs and test inference time. The implementation code is available at: \url{https://github.com/LincanLi98/STG-Mamba}. | 翻訳日:2024-05-14 23:54:21 公開日:2024-05-11 |
# ブロックチェーンセキュリティのための大規模言語モデル - 体系的な文献レビュー
Large Language Models for Blockchain Security: A Systematic Literature Review ( http://arxiv.org/abs/2403.14280v4 ) ライセンス: Link先を確認 | Zheyuan He, Zihao Li, Sen Yang, Ao Qiao, Xiaosong Zhang, Xiapu Luo, Ting Chen, | (参考訳) 大規模言語モデル(LLM)は、サイバーセキュリティの様々な領域にまたがる強力なツールとして登場した。
特に最近の研究は、ブロックチェーンセキュリティ(BS)のコンテキストに適用可能なLSMを探求している。
しかしながら、アプリケーションの全範囲、影響、LLMのブロックチェーンセキュリティに対する潜在的な制約に関する包括的な理解には、依然としてギャップがある。
このギャップを埋めるために、私たちは、LLMをブロックチェーンセキュリティ(LLM4BS)に適用する研究に焦点を当てた文献レビューを実施します。
本研究の目的は,既存の研究を包括的に分析し,LLMがブロックチェーンシステムのセキュリティ向上にどのように貢献するかを明らかにすることである。
既存の文献の徹底的な調査を通じて、LLMをブロックチェーンセキュリティのさまざまな側面に統合する方法について検討する。
スマートコントラクト監査、トランザクション異常検出、脆弱性修復、スマートコントラクトのプログラム分析、暗号通貨コミュニティの参加者としての役割など、LLMがブロックチェーンセキュリティを強化するメカニズムについて検討する。
さらに、スケーラビリティ、プライバシの懸念、倫理的懸念といった要因を考慮して、ブロックチェーンセキュリティの強化にLLMを活用する際の課題と制限を評価します。
我々の徹底的なレビューは、LSM4BSにおけるタスクの機会と潜在的なリスクを明らかにし、研究者、実践家、政策立案者にも貴重な洞察を与えます。
Large Language Models (LLMs) have emerged as powerful tools across various domains within cyber security. Notably, recent studies are increasingly exploring LLMs applied to the context of blockchain security (BS). However, there remains a gap in a comprehensive understanding regarding the full scope of applications, impacts, and potential constraints of LLMs on blockchain security. To fill this gap, we undertake a literature review focusing on the studies that apply LLMs in blockchain security (LLM4BS). Our study aims to comprehensively analyze and understand existing research, and elucidate how LLMs contribute to enhancing the security of blockchain systems. Through a thorough examination of existing literature, we delve into the integration of LLMs into various aspects of blockchain security. We explore the mechanisms through which LLMs can bolster blockchain security, including their applications in smart contract auditing, transaction anomaly detection, vulnerability repair, program analysis of smart contracts, and serving as participants in the cryptocurrency community. Furthermore, we assess the challenges and limitations associated with leveraging LLMs for enhancing blockchain security, considering factors such as scalability, privacy concerns, and ethical concerns. Our thorough review sheds light on the opportunities and potential risks of tasks on LLM4BS, providing valuable insights for researchers, practitioners, and policymakers alike. | 翻訳日:2024-05-14 23:54:21 公開日:2024-05-11 |
# リフレッシュプレフィックスプロンプトによる言語モデルの知識表現の編集
Editing Knowledge Representation of Language Model via Rephrased Prefix Prompts ( http://arxiv.org/abs/2403.14381v2 ) ライセンス: Link先を確認 | Yuchen Cai, Ding Cao, Rongxi Guo, Yaqin Wen, Guiquan Liu, Enhong Chen, | (参考訳) ニューラルネットワークモデル(LM)は、テキストで記述された世界の様々な側面に関する事実知識を保持するために、広大なコーパスで広範囲に訓練されている。
現在の技術では、知識編集手法や特定のプロンプトを使ってLM出力を変更するのが一般的である。
しかし、既存の知識編集手法は費用がかかり非効率であり、適切なテキストを作成するのに苦労している。
さらに、プロンプトエンジニアリングは不透明であり、適切なプロンプトを見つけるためにかなりの努力を要する。
これらの問題に対処するため,PSPEM (Prefix Soft Prompt Editing Method) と呼ばれる新しい手法を導入する。
知識編集手法における非効率性と一般化可能性の問題を解消し、最適なソフトプロンプトを自動で求めることにより、プロンプトエンジニアリングの不透明さを克服する。
具体的には、プロンプトエンコーダとエンコードコンバータを用いて、プロンプト内のキー情報を洗練し、プロンプトアライメント技術を用いてモデル生成をガイドし、意図された構造や内容に対するテキストの一貫性と定着を確保し、効率と精度の最適なバランスを維持する。
我々は知識編集と属性挿入によるPSPEMの有効性を検証した。
COUNTERFACTデータセットでは、PSPEMは100倍近い編集精度を達成し、最も高い流速を示した。
さらに、PSPEMと元のプロンプトの類似点とモデル内部への影響について分析した。
その結果,PSPEMはオリジナルのプロンプトの代替として機能し,効率的な編集を支援することが示唆された。
Neural language models (LMs) have been extensively trained on vast corpora to store factual knowledge about various aspects of the world described in texts. Current technologies typically employ knowledge editing methods or specific prompts to modify LM outputs. However, existing knowledge editing methods are costly and inefficient, struggling to produce appropriate text. Additionally, prompt engineering is opaque and requires significant effort to find suitable prompts. To address these issues, we introduce a new method called PSPEM (Prefix Soft Prompt Editing Method), that can be used for a lifetime with just one training. It resolves the inefficiencies and generalizability issues in knowledge editing methods and overcomes the opacity of prompt engineering by automatically seeking optimal soft prompts. Specifically, PSPEM utilizes a prompt encoder and an encoding converter to refine key information in prompts and uses prompt alignment techniques to guide model generation, ensuring text consistency and adherence to the intended structure and content, thereby maintaining an optimal balance between efficiency and accuracy. We have validated the effectiveness of PSPEM through knowledge editing and attribute inserting. On the COUNTERFACT dataset, PSPEM achieved nearly 100\% editing accuracy and demonstrated the highest level of fluency. We further analyzed the similarities between PSPEM and original prompts and their impact on the model's internals. The results indicate that PSPEM can serve as an alternative to original prompts, supporting the model in effective editing. | 翻訳日:2024-05-14 23:54:21 公開日:2024-05-11 |
# LLMを用いたコード生成における幻覚の探索と評価
Exploring and Evaluating Hallucinations in LLM-Powered Code Generation ( http://arxiv.org/abs/2404.00971v2 ) ライセンス: Link先を確認 | Fang Liu, Yang Liu, Lin Shi, Houkun Huang, Ruifeng Wang, Zhen Yang, Li Zhang, Zhongqi Li, Yuchi Ma, | (参考訳) 大規模言語モデル(LLM)の台頭は、特にコード生成において、ソフトウェア工学のタスクにおける多くのアプリケーションを大幅に進歩させてきた。
有望な性能にもかかわらず、LLMは幻覚を発生させる傾向があり、つまり、LCMはユーザーの意図から逸脱した出力を生成したり、内部の矛盾を示したり、事実の知識と不一致を示したりし、LSMの展開を広範囲のアプリケーションで危険に晒す可能性がある。
既存の研究は、主に自然言語生成(NLG)分野における幻覚の投資に重点を置いており、コード生成の文脈における幻覚のタイプと範囲を理解することのギャップを残している。
このギャップを埋めるために,LLM生成コードのテーマ解析を行い,その中に存在する幻覚を要約し分類した。
本研究は,LLM生成コードにおける幻覚の包括的分類を確立した。
さらに,幻覚の分布を系統的に解析し,異なるLLM間の変動とコード正しさとの相関について検討した。
この結果をもとに,幻覚認識におけるLLMの性能評価のためのベンチマークであるHaluCodeを提案した。
HalluCodeとHumanEvalによる幻覚認識と緩和実験は、既存のLLMが幻覚を認識する上で大きな課題に直面していることを示している。
我々の発見は、幻覚の評価、検出、緩和に関する将来の研究に光を当て、最終的には、より効果的で信頼性の高いLCMを構築するための道を開くだろうと信じています。
The rise of Large Language Models (LLMs) has significantly advanced many applications on software engineering tasks, particularly in code generation. Despite the promising performance, LLMs are prone to generate hallucinations, which means LLMs might produce outputs that deviate from users' intent, exhibit internal inconsistencies, or misalign with the factual knowledge, making the deployment of LLMs potentially risky in a wide range of applications. Existing work mainly focuses on investing the hallucination in the domain of natural language generation (NLG), leaving a gap in understanding the types and extent of hallucinations in the context of code generation. To bridge the gap, we conducted a thematic analysis of the LLM-generated code to summarize and categorize the hallucinations present in it. Our study established a comprehensive taxonomy of hallucinations in LLM-generated code, encompassing 5 primary categories of hallucinations depending on the conflicting objectives and varying degrees of deviation observed in code generation. Furthermore, we systematically analyzed the distribution of hallucinations, exploring variations among different LLMs and their correlation with code correctness. Based on the results, we proposed HalluCode, a benchmark for evaluating the performance of code LLMs in recognizing hallucinations. Hallucination recognition and mitigation experiments with HalluCode and HumanEval show existing LLMs face great challenges in recognizing hallucinations, particularly in identifying their types, and are hardly able to mitigate hallucinations. We believe our findings will shed light on future research about hallucination evaluation, detection, and mitigation, ultimately paving the way for building more effective and reliable code LLMs in the future. | 翻訳日:2024-05-14 23:44:37 公開日:2024-05-11 |
# 真のリンダは立ち上がるか...大規模言語モデルへ? : LLMにおける代表性ヒューリスティックの検討
Will the Real Linda Please Stand up...to Large Language Models? Examining the Representativeness Heuristic in LLMs ( http://arxiv.org/abs/2404.01461v2 ) ライセンス: Link先を確認 | Pengda Wang, Zilin Xiao, Hanjie Chen, Frederick L. Oswald, | (参考訳) 大規模言語モデル (LLM) は「理解」されたテキストや人間のようなテキストを生成するのに顕著な習熟性を示したが、訓練データから得られたバイアスを示すこともある。
特に、LSMは、代表性ヒューリスティックと呼ばれる人間の意思決定において共通の認知的罠に陥る可能性がある。
これは心理学における概念であり、より広い事実や統計的証拠を考えるよりも、よく知られたプロトタイプや典型的な例にどの程度近いかに基づいて事象の可能性を判断するものである。
本研究は, LLM推論における代表性ヒューリスティックの影響について検討する。
ReHeAT(Representativeness Heuristic AI Testing、表現性ヒューリスティックAIテスト)は、6種類の代表性ヒューリスティックにまたがる一連の問題を含むデータセットである。
実験の結果、REHEATに適用された4つのLLMはいずれも代表性ヒューリスティックバイアスを示していた。
さらに、モデルの推論ステップが問題の記述よりもステレオタイプに基づいている場合が多いことを確認します。
興味深いことに、その知識を使用するモデルを思い出させるプロンプトにヒントを追加すると、パフォーマンスが向上する。
これは、従来の偏見と比較して代表性ヒューリスティックの独特さを示唆している。
LLMが認知的トラップで失敗しながら正しい知識を持っている場合でも起こりうる。
このことは、モデル推論と意思決定における代表性ヒューリスティックとそれに対応するソリューションの開発に焦点を当てた将来の研究の重要性を強調している。
Although large language models (LLMs) have demonstrated remarkable proficiency in "understanding" text and generating human-like text, they may exhibit biases acquired from training data in doing so. Specifically, LLMs may be susceptible to a common cognitive trap in human decision-making called the representativeness heuristic. This is a concept in psychology that refers to judging the likelihood of an event based on how closely it resembles a well-known prototype or typical example versus considering broader facts or statistical evidence. This work investigates the impact of the representativeness heuristic on LLM reasoning. We created ReHeAT (Representativeness Heuristic AI Testing), a dataset containing a series of problems spanning six common types of representativeness heuristics. Experiments reveal that four LLMs applied to REHEAT all exhibited representativeness heuristic biases. We further identify that the model's reasoning steps are often incorrectly based on a stereotype rather than the problem's description. Interestingly, the performance improves when adding a hint in the prompt to remind the model of using its knowledge. This suggests the uniqueness of the representativeness heuristic compared to traditional biases. It can occur even when LLMs possess the correct knowledge while failing in a cognitive trap. This highlights the importance of future research focusing on the representativeness heuristic in model reasoning and decision-making and on developing solutions to address it. | 翻訳日:2024-05-14 23:44:37 公開日:2024-05-11 |
# Conjugate-Gradient-like Based Adaptive Moment Estimation Optimization Algorithm for Deep Learning
Conjugate-Gradient-like Based Adaptive Moment Estimation Optimization Algorithm for Deep Learning ( http://arxiv.org/abs/2404.01714v3 ) ライセンス: Link先を確認 | Jiawu Tian, Liwei Xu, Xiaowei Zhang, Yongqi Li, | (参考訳) ディープニューラルネットワークのトレーニングは難しい課題だ。
深層ニューラルネットワークの性能向上とトレーニングの高速化を目的として,バニラ共役勾配を共役勾配のように修正し,汎用的なAdamに組み込むことにより,ディープラーニングのためのCG-like-Adamという新しい最適化アルゴリズムを提案する。
具体的には、ジェネリック・アダムの第1次と第2次モーメント推定の両方を共役次数様に置き換える。
収束解析は、一階モーメント推定の指数移動平均係数が一定であり、一階モーメント推定が偏りのない場合を扱う。
CIFAR10/100データセットに基づく提案アルゴリズムの優位性を示す数値実験を行った。
Training deep neural networks is a challenging task. In order to speed up training and enhance the performance of deep neural networks, we rectify the vanilla conjugate gradient as conjugate-gradient-like and incorporate it into the generic Adam, and thus propose a new optimization algorithm named CG-like-Adam for deep learning. Specifically, both the first-order and the second-order moment estimation of generic Adam are replaced by the conjugate-gradient-like. Convergence analysis handles the cases where the exponential moving average coefficient of the first-order moment estimation is constant and the first-order moment estimation is unbiased. Numerical experiments show the superiority of the proposed algorithm based on the CIFAR10/100 dataset. | 翻訳日:2024-05-14 23:44:37 公開日:2024-05-11 |
# GEARS:局所幾何学的手・物体間相互作用合成
GEARS: Local Geometry-aware Hand-object Interaction Synthesis ( http://arxiv.org/abs/2404.01758v3 ) ライセンス: Link先を確認 | Keyang Zhou, Bharat Lal Bhatnagar, Jan Eric Lenssen, Gerard Pons-moll, | (参考訳) 物体との相互作用における現実的な手の動き列の生成は、デジタル人間への関心の高まりとともに注目を集めている。
以前の研究は、手動物体の相互作用の特徴を抽出するために、占有率に基づくまたは距離に基づく仮想センサを使うことの有効性を実証してきた。
にもかかわらず、これらの手法は対象圏、形状、大きさにまたがる限定的な一般化性を示す。
これは2つの理由によるものと仮定する。
1)使用済み仮想センサの限られた表現性、及び
2) 利用可能なトレーニングデータの不足。
この課題に対処するために、我々は、潜在的な相互作用領域近傍の局所物体形状を推論する新しい共同中心センサを導入する。
各手関節近傍の物体表面点に対するセンサクエリ
学習の複雑さを軽減するための重要なステップとして、グローバルフレームからハンドテンプレートフレームへポイントを変換し、共有モジュールを使用して各関節のセンサ特徴を処理する。
その後、異なる次元の関節間の相関を捉えることを目的とした時空間変圧器ネットワークが続く。
さらに,手幅の広い静的握りサンプルを用いて,限られたトレーニングシーケンスを増強するための単純なヒューリスティックなルールを考案した。
これにより、トレーニング中に観察される把握タイプの幅広いスペクトルが導かれ、それによってモデルの一般化能力が向上する。
GRABとInterCapの2つの公開データセットについて評価し,本手法はベースラインよりも定量的かつ知覚的に優れていることを示す。
Generating realistic hand motion sequences in interaction with objects has gained increasing attention with the growing interest in digital humans. Prior work has illustrated the effectiveness of employing occupancy-based or distance-based virtual sensors to extract hand-object interaction features. Nonetheless, these methods show limited generalizability across object categories, shapes and sizes. We hypothesize that this is due to two reasons: 1) the limited expressiveness of employed virtual sensors, and 2) scarcity of available training data. To tackle this challenge, we introduce a novel joint-centered sensor designed to reason about local object geometry near potential interaction regions. The sensor queries for object surface points in the neighbourhood of each hand joint. As an important step towards mitigating the learning complexity, we transform the points from global frame to hand template frame and use a shared module to process sensor features of each individual joint. This is followed by a spatio-temporal transformer network aimed at capturing correlation among the joints in different dimensions. Moreover, we devise simple heuristic rules to augment the limited training sequences with vast static hand grasping samples. This leads to a broader spectrum of grasping types observed during training, in turn enhancing our model's generalization capability. We evaluate on two public datasets, GRAB and InterCap, where our method shows superiority over baselines both quantitatively and perceptually. | 翻訳日:2024-05-14 23:44:37 公開日:2024-05-11 |
# FastHDRNet: SDR-to-HDR翻訳のための新しい効率的な方法
FastHDRNet: A new efficient method for SDR-to-HDR Translation ( http://arxiv.org/abs/2404.04483v2 ) ライセンス: Link先を確認 | Siyuan Tian, Hao Wang, Yiren Rong, Junhao Wang, Renjie Dai, Zhengxiao He, | (参考訳) 現代のディスプレイは、ハイダイナミックレンジ(HDR)と広い色域で映像コンテンツをレンダリングする機能を持っている。
しかし、利用可能なリソースの大部分は、まだ標準動的範囲(SDR)にある。
したがって、既存のディープニューラルネットワーク(DNN)に基づくSDRからHDRへの変換手法は従来の手法よりも優れているが、これらは実装やひどい成果物を生成するには大きすぎるか、あるいは大きすぎるかのいずれかである。
本稿では,FastHDRNetと呼ばれる,SDRからHDRへの変換のためのニューラルネットワークを提案する。
このネットワークには、Adaptive Universal Color Transformation (AUCT)とLocal Enhancement (LE)の2つの部分が含まれている。
このアーキテクチャは、グローバル統計とローカル情報を超高効率で利用する軽量ネットワークとして設計されている。
実験の結果,提案手法は,軽量な構造と改良された推論速度を用いて,定量的比較と視覚的品質の両面において,最先端の性能を達成できることが判明した。
Modern displays nowadays possess the capability to render video content with a high dynamic range (HDR) and an extensive color gamut .However, the majority of available resources are still in standard dynamic range (SDR). Therefore, we need to identify an effective methodology for this objective.The existing deep neural networks (DNN) based SDR to HDR conversion methods outperforms conventional methods, but they are either too large to implement or generate some terrible artifacts. We propose a neural network for SDR to HDR conversion, termed "FastHDRNet". This network includes two parts, Adaptive Universal Color Transformation (AUCT) and Local Enhancement (LE). The architecture is designed as a lightweight network that utilizes global statistics and local information with super high efficiency. After the experiment, we find that our proposed method achieves state-of-the-art performance in both quantitative comparisons and visual quality with a lightweight structure and a enhanced infer speed. | 翻訳日:2024-05-14 23:34:50 公開日:2024-05-11 |
# テンソルネットワークに基づく量子固有値解法
A quantum eigenvalue solver based on tensor networks ( http://arxiv.org/abs/2404.10223v2 ) ライセンス: Link先を確認 | Oskar Leimkuhler, K. Birgitta Whaley, | (参考訳) 電子基底状態は化学シミュレーションにおいて中心的な重要性を持つが、弱い電子相関や1次元空間幾何学を除いて、効率的な古典アルゴリズムの到達範囲を超え続けている。
回転軌道ベースにおける行列積状態の線形結合から波動関数アンサッツを構成するハイブリッド量子古典固有値解法を導入し、任意の空間幾何学による強相関基底状態のキャラクタリゼーションを可能にする。
エネルギーは、量子部分空間対角化に基づく勾配のない一般化されたスイープアルゴリズムによって収束し、量子ビット数における線形深さのコンパクトな量子回路への変換によって、外対角行列要素の収縮が指数関数的に高速化される可能性がある。
化学精度は、ストレッチされた水分子と水素原子の八面体配置の両方の数値実験で達成され、一元結合クラスターベンチマークよりもかなり良い相関エネルギーを達成し、量子資源推定の桁違いの減少とショットノイズに対する驚くほど高い耐性を持つ。
この概念実証研究は、近未来の量子ハードウェア上での強相関の強い化学系のシミュレーションをスケールアップするための新しい道のりを示唆している。
Electronic ground states are of central importance in chemical simulations, but have remained beyond the reach of efficient classical algorithms except in cases of weak electron correlation or one-dimensional spatial geometry. We introduce a hybrid quantum-classical eigenvalue solver that constructs a wavefunction ansatz from a linear combination of matrix product states in rotated orbital bases, enabling the characterization of strongly correlated ground states with arbitrary spatial geometry. The energy is converged via a gradient-free generalized sweep algorithm based on quantum subspace diagonalization, with a potentially exponential speedup in the off-diagonal matrix element contractions upon translation into compact quantum circuits of linear depth in the number of qubits. Chemical accuracy is attained in numerical experiments for both a stretched water molecule and an octahedral arrangement of hydrogen atoms, achieving substantially better correlation energies compared to a unitary coupled-cluster benchmark, with orders of magnitude reductions in quantum resource estimates and a surprisingly high tolerance to shot noise. This proof-of-concept study suggests a promising new avenue for scaling up simulations of strongly correlated chemical systems on near-term quantum hardware. | 翻訳日:2024-05-14 23:34:50 公開日:2024-05-11 |
# 教育におけるAI支援書記:生態系のリスクと緩和
AI-Assisted Writing in Education: Ecosystem Risks and Mitigations ( http://arxiv.org/abs/2404.10281v2 ) ライセンス: Link先を確認 | Antonette Shibani, Simon Buckingham Shum, | (参考訳) 技術進歩の能力に関する興奮が、新しいAIベースの筆記アシスタントを生み出している一方で、そのエコシステムは、教育実践においてどのように採用されるかにおいて重要な役割を担っている。
本稿では,重要な生態学的側面を考察する。
大学における9年間にわたる筆記フィードバックツールの実践と統合された広範な研究から洞察を得ており、これらが見過ごされた場合の潜在的なリスクを強調している。
実践的な影響とイノベーションのバランスをとるために、より広い文脈でより整合した教育書記支援ツールの設計を通知する。
While the excitement around the capabilities of technological advancements is giving rise to new AI-based writing assistants, the overarching ecosystem plays a crucial role in how they are adopted in educational practice. In this paper, we point to key ecological aspects for consideration. We draw insights from extensive research integrated with practice on a writing feedback tool over 9 years at a university, and we highlight potential risks when these are overlooked. It informs the design of educational writing support tools to be better aligned within broader contexts to balance innovation with practical impact. | 翻訳日:2024-05-14 23:34:50 公開日:2024-05-11 |
# マルチエージェント強化学習のためのグループ認識コーディネーショングラフ
Group-Aware Coordination Graph for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2404.10976v3 ) ライセンス: Link先を確認 | Wei Duan, Jie Lu, Junyu Xuan, | (参考訳) 協調的マルチエージェント強化学習(MARL)はエージェント間のシームレスな協調を必要とする。
このグラフを学習する既存の方法は、主にエージェント対ペア関係に焦点をあて、高階関係を無視している。
いくつかの手法は、グループ内の行動類似性を包含するように協調モデリングを拡張しようとするが、通常は潜伏グラフの同時学習において不足し、部分的に観察されたエージェント間の情報交換を制限している。
これらの制約を克服するために,現在観測されている行動パターンからエージェントペア間の協調とグループレベルの依存性の両方を捉えるために,GACG(Group-Aware Coordination Graph)を推論する新しい手法を提案する。
このグラフは、意思決定中にエージェント間の情報交換のためのグラフ畳み込みにさらに使用される。
同一グループ内のエージェント間の行動整合性をさらに確保するため,グループ間の凝集を促進するグループ距離損失を導入し,グループ間の特殊化を促進する。
本稿では,StarCraft IIマイクロマネジメントタスクによるGACGの性能評価を行った。
アブレーション実験により, 本手法の各成分の有効性について実験的に検証した。
Cooperative Multi-Agent Reinforcement Learning (MARL) necessitates seamless collaboration among agents, often represented by an underlying relation graph. Existing methods for learning this graph primarily focus on agent-pair relations, neglecting higher-order relationships. While several approaches attempt to extend cooperation modelling to encompass behaviour similarities within groups, they commonly fall short in concurrently learning the latent graph, thereby constraining the information exchange among partially observed agents. To overcome these limitations, we present a novel approach to infer the Group-Aware Coordination Graph (GACG), which is designed to capture both the cooperation between agent pairs based on current observations and group-level dependencies from behaviour patterns observed across trajectories. This graph is further used in graph convolution for information exchange between agents during decision-making. To further ensure behavioural consistency among agents within the same group, we introduce a group distance loss, which promotes group cohesion and encourages specialization between groups. Our evaluations, conducted on StarCraft II micromanagement tasks, demonstrate GACG's superior performance. An ablation study further provides experimental evidence of the effectiveness of each component of our method. | 翻訳日:2024-05-14 23:10:20 公開日:2024-05-11 |
# 心電図デジタルツインジェネレーションによるパーソナライズド心臓疾患の検出
Personalized Heart Disease Detection via ECG Digital Twin Generation ( http://arxiv.org/abs/2404.11171v2 ) ライセンス: Link先を確認 | Yaojun Hu, Jintai Chen, Lianting Hu, Dantong Li, Jiahuan Yan, Haochao Ying, Huiying Liang, Jian Wu, | (参考訳) 心臓病は世界的死亡の原因の1つであり、早期診断と介入が不可欠であることを示している。
従来の心電図に基づく自動診断法の多くは、個別の医療管理を強化するためにパーソナライズされた心電図のカスタマイズを無視して、人口レベルで訓練されている。
この制限に対処する潜在的な解決策は、実際の患者の病気の症状をシミュレートするためにデジタル双生児を使うことである。
本稿では,健常人の異常心電図のデジタル双極子を生成し,パーソナライズされた症状に対するモデル感度を高める,パーソナライズされた心疾患検出のための革新的な学習手法を提案する。
本研究では,心電図による心電図信号の症状と正常部分の同定と分離を目的として,ベクトル量子化特徴分離器を提案する。
これにより、ECGデジタルツインは、パーソナライズされた心臓病検出モデルをトレーニングするために使用される特定の心臓疾患をシミュレートすることができる。
実験により,本手法は高忠実度心電図信号生成に優れるだけでなく,パーソナライズされた心疾患の検出も改善することが示された。
さらに,本手法は,モデル開発における患者のデータを保護し,堅牢なプライバシ保護を実現する。
Heart diseases rank among the leading causes of global mortality, demonstrating a crucial need for early diagnosis and intervention. Most traditional electrocardiogram (ECG) based automated diagnosis methods are trained at population level, neglecting the customization of personalized ECGs to enhance individual healthcare management. A potential solution to address this limitation is to employ digital twins to simulate symptoms of diseases in real patients. In this paper, we present an innovative prospective learning approach for personalized heart disease detection, which generates digital twins of healthy individuals' anomalous ECGs and enhances the model sensitivity to the personalized symptoms. In our approach, a vector quantized feature separator is proposed to locate and isolate the disease symptom and normal segments in ECG signals with ECG report guidance. Thus, the ECG digital twins can simulate specific heart diseases used to train a personalized heart disease detection model. Experiments demonstrate that our approach not only excels in generating high-fidelity ECG signals but also improves personalized heart disease detection. Moreover, our approach ensures robust privacy protection, safeguarding patient data in model development. | 翻訳日:2024-05-14 23:10:20 公開日:2024-05-11 |
# HashPoint: ニューラルレンダリングのための高速化されたポイント検索とサンプリング
HashPoint: Accelerated Point Searching and Sampling for Neural Rendering ( http://arxiv.org/abs/2404.14044v2 ) ライセンス: Link先を確認 | Jiahao Ma, Miaomiao Liu, David Ahmedt-Aristizaba, Chuong Nguyen, | (参考訳) 本稿では,ボリュームニューラルレンダリングにおける効率的な点探索とサンプリングの問題に対処する。
この領域では、ラスタ化とレイトレーシングの2つの典型的なアプローチが採用されている。
ラスタライズベースの手法により、メモリ増加と忠実度低下のコストでリアルタイムレンダリングが可能になる。
対照的に、レイトレーシングに基づく手法は優れた品質を得るが、より長いレンダリング時間を要求する。
本稿では,この2つの戦略を組み合わせたHashPoint法を用いて,効率的な点探索とサンプリングのためのラスタライズ,レンダリングのためのレイマーチングという手法を提案する。
本手法は,カメラビュー内の点をラスタライズし,ハッシュテーブルに整理し,高速検索を容易にする点探索を最適化する。
特に、光線に遭遇する一次表面の適応サンプリングによりレンダリング処理を高速化する。
提案手法は, 最先端のレイトレーシング手法の大幅な高速化を実現し, 合成および実検データセット間で等価あるいは優れた精度を維持する。
コードはhttps://jiahao-ma.github.io/hashpoint/.com/で入手できる。
In this paper, we address the problem of efficient point searching and sampling for volume neural rendering. Within this realm, two typical approaches are employed: rasterization and ray tracing. The rasterization-based methods enable real-time rendering at the cost of increased memory and lower fidelity. In contrast, the ray-tracing-based methods yield superior quality but demand longer rendering time. We solve this problem by our HashPoint method combining these two strategies, leveraging rasterization for efficient point searching and sampling, and ray marching for rendering. Our method optimizes point searching by rasterizing points within the camera's view, organizing them in a hash table, and facilitating rapid searches. Notably, we accelerate the rendering process by adaptive sampling on the primary surface encountered by the ray. Our approach yields substantial speed-up for a range of state-of-the-art ray-tracing-based methods, maintaining equivalent or superior accuracy across synthetic and real test datasets. The code will be available at https://jiahao-ma.github.io/hashpoint/. | 翻訳日:2024-05-14 23:10:20 公開日:2024-05-11 |
# 自動翻訳における大規模言語モデルのパワーの探索と解放
Exploring and Unleashing the Power of Large Language Models in Automated Code Translation ( http://arxiv.org/abs/2404.14646v2 ) ライセンス: Link先を確認 | Zhen Yang, Fang Liu, Zhongxing Yu, Jacky Wai Keung, Jia Li, Shuo Liu, Yifan Hong, Xiaoxue Ma, Zhi Jin, Ge Li, | (参考訳) コード翻訳ツール(トランスパイラ)は、ソースからソースへの自動翻訳のために開発されている。
学習ベースのトランスパイラは、広範囲なモノリンガルコーパスでタスク固有の事前学習のために、ルールベースのものに対して顕著に強化されている。
彼らの現在のパフォーマンスは、実際的なデプロイメントには相変わらず不満足であり、関連するトレーニングリソースも違法に高価である。
大量の人書きコード/テキストで事前訓練されたLLMは、タスク固有のトレーニングなしでも、その強力な汎用性のため、多くのコードインテリジェンスタスクにおいて顕著なパフォーマンスを示している。
したがって、LSMは上記の制限を回避できる可能性があるが、まだ徹底的に検討されていない。
本稿では,自動コード翻訳タスクのための多種多様なLLMと学習ベーストランスパイラについて検討し,一部のLLMが現在のトランスパイラより優れているものの,ほとんどの障害がソースプログラムの理解の欠如,翻訳におけるI/O型に関する明確な指示の欠如,ソースプログラムとターゲットプログラムの相違を無視するなど,いくつかの精度上の問題があることを明らかにする。
以上の知見に照らして、様々なLLMに適用可能な統一コード翻訳フレームワークUniTransを提案する。
具体的には、UniTransはまず、ソースプログラムの助けを借りて、ターゲットプログラムの一連のテストケースを作成する。
次に、上記の自動生成されたテストケースを利用して、コード翻訳を強化し、実行によってそれらの正確性を評価する。
その後、UniTransはテストケースの実行結果によって、不正に翻訳されたプログラムを修復する。
大規模な実験は、Python、Java、C++間の翻訳データセットの6つの設定で実施されている。
最近の3つのLLMはUniTransでテストされており、いずれも大幅に改善されている。
Code translation tools (transpilers) are developed for automatic source-to-source translation. Although learning-based transpilers have shown impressive enhancement against rule-based counterparts, owing to their task-specific pre-training on extensive monolingual corpora. Their current performance still remains unsatisfactory for practical deployment, and the associated training resources are also prohibitively expensive. LLMs pre-trained on huge amounts of human-written code/text have shown remarkable performance in many code intelligence tasks due to their powerful generality, even without task-specific training. Thus, LLMs can potentially circumvent the above limitations, but they have not been exhaustively explored yet. This paper investigates diverse LLMs and learning-based transpilers for automated code translation tasks, finding that: although certain LLMs have outperformed current transpilers, they still have some accuracy issues, where most of the failures are induced by a lack of comprehension of source programs, missing clear instructions on I/O types in translation, and ignoring discrepancies between source and target programs. Enlightened by the above findings, we further propose UniTrans, a Unified code Translation framework, applicable to various LLMs, for unleashing their power in this field. Specifically, UniTrans first crafts a series of test cases for target programs with the assistance of source programs. Next, it harnesses the above auto-generated test cases to augment the code translation and then evaluate their correctness via execution. Afterward, UniTrans further (iteratively) repairs incorrectly translated programs prompted by test case execution results. Extensive experiments are conducted on six settings of translation datasets between Python, Java, and C++. Three recent LLMs of diverse sizes are tested with UniTrans, and all achieve substantial improvements. | 翻訳日:2024-05-14 23:10:20 公開日:2024-05-11 |
# 講演の過度さ - トークン制限下での大規模言語モデルの提供
Talk Too Much: Poisoning Large Language Models under Token Limit ( http://arxiv.org/abs/2404.14795v3 ) ライセンス: Link先を確認 | Jiaming He, Wenbo Jiang, Guanyu Hou, Wenshu Fan, Rui Zhang, Hongwei Li, | (参考訳) 大規模言語モデル(LLM)に対するメインストリームの中毒攻撃は、通常、入力インスタンスに固定されたトリガと、トリガクエリに対する特定のレスポンスを設定する。
しかし、固定的なトリガー設定(例:異常な単語)は、人間の検出によって容易に検出でき、現実のシナリオにおける有効性と実用性を制限することができる。
トリガのステルス性を高めるため,コスト削減のためのユーザによる一般的な戦略であるジェネレーション・アウトプット・コンディション・トケンの制限によって引き起こされるLSMに対する中毒攻撃を提案する。
有毒モデルは通常、トークン制限なしで出力を行うが、トークン制限のある出力には有害となる。
この目的を達成するために、効率的な攻撃フレームワークであるBrieFoolを紹介します。
効率的な指導サンプリングと中毒データ生成により, 生成制限の特性を活用し, 目標条件下でのLCMの挙動に影響を与える。
実験の結果,BrieFoolは安全領域や知識領域にまたがって有効であることがわかった。
例えば、GPT-3.5-turboに対する中毒例は20件しかなく、BrieFoolは100%アタック成功率(ASR)と9.28/10の平均ハーミフルネススコア(HS)をトークン制限条件下で達成し、良質な性能を維持している。
Mainstream poisoning attacks on large language models (LLMs) typically set a fixed trigger in the input instance and specific responses for triggered queries. However, the fixed trigger setting (e.g., unusual words) may be easily detected by human detection, limiting the effectiveness and practicality in real-world scenarios. To enhance the stealthiness of the trigger, we present a poisoning attack against LLMs that is triggered by a generation/output condition-token limitation, which is a commonly adopted strategy by users for reducing costs. The poisoned model performs normally for output without token limitation, while becomes harmful for output with limited tokens. To achieve this objective, we introduce BrieFool, an efficient attack framework. It leverages the characteristics of generation limitation by efficient instruction sampling and poisoning data generation, thereby influencing the behavior of LLMs under target conditions. Our experiments demonstrate that BrieFool is effective across safety domains and knowledge domains. For instance, with only 20 generated poisoning examples against GPT-3.5-turbo, BrieFool achieves a 100% Attack Success Rate (ASR) and a 9.28/10 average Harmfulness Score (HS) under token limitation conditions while maintaining the benign performance. | 翻訳日:2024-05-14 23:10:20 公開日:2024-05-11 |
# 量子光との相互作用による強相関多電子束
Strongly correlated multi-electron bunches from interaction with quantum light ( http://arxiv.org/abs/2404.14957v2 ) ライセンス: Link先を確認 | Suraj Kumar, Jeremy Lim, Nicholas Rivera, Wesley Wong, Yee Sin Ang, Lay Kee Ang, Liang Jie Wong, | (参考訳) 強い相関を持つ電子系は現代の物理学の基盤であり、超伝導磁石から量子コンピューティングまでの現象を画期的に破壊する役割を担っている。
ほとんどの場合、電子の相関はクーロン相互作用によってのみ生じる。
本研究では、光場と同時に相互作用する自由電子が、クーロン相互作用以外の機構を介して高い相関関係を持つことを明らかにする。
2つの電子の場合、出力電子エネルギーのジョイント確率分布に対する結果のピアソン相関係数(PCC)は、光電場と(次々に)相互作用する電子に比べて13桁以上向上する。
これらの高相関電子は、外部量子光場を介して参加電子間の運動量とエネルギー交換の結果である。
我々の研究は、量子情報や超高速イメージングを含む応用のための、高相関な自由電子の生成と制御の道を開いた。
Strongly correlated electron systems are a cornerstone of modern physics, being responsible for groundbreaking phenomena from superconducting magnets to quantum computing. In most cases, correlations in electrons arise exclusively due to Coulomb interactions. In this work, we reveal that free electrons interacting simultaneously with a light field can become highly correlated via mechanisms beyond Coulomb interactions. In the case of two electrons, the resulting Pearson correlation coefficient (PCC) for the joint probability distribution of the output electron energies is enhanced over 13 orders of magnitude compared to that of electrons interacting with the light field in succession (one after another). These highly correlated electrons are the result of momentum and energy exchange between the participating electrons via the external quantum light field. Our findings pave the way to the creation and control of highly correlated free electrons for applications including quantum information and ultra-fast imaging. | 翻訳日:2024-05-14 23:10:20 公開日:2024-05-11 |
# 混合スピン状態を持つ回転の量子メロジ
Quantum metrology of rotations with mixed spin states ( http://arxiv.org/abs/2404.15548v2 ) ライセンス: Link先を確認 | Eduardo Serrano-Ensástiga, Chryssomalis Chryssomalakos, John Martin, | (参考訳) 量子メートル法プロトコルの効率は、量子系とその環境との相互作用によって著しく低下し、純度が失われ、結果として、探索系に対する混合状態となる。
本稿では、任意の軸に関する無限小回転の測定における純状態と同等かつ同等の感度を実現するために、混合スピン-j$状態のポテンシャルについて検討する。
我々は、フィッシャー量子情報の最大化に基づく混合最適量子ロトセンサの概念を導入し、スピン状態の反コヒーレンスの概念とその部分空間への一般化に関連していることを示す。
反コヒーレント部分空間とその関連する混合最適量子ロトセンサのいくつかの例を示す。
また、後者は特定の二分割に対する負性度を最大化し、純状態と同じ最大値に達することを示す。
これらの結果は、混合スピン状態の枠組みにおける回転、反コヒーレンス、絡み合いの量子距離論の間の相互作用を解明する。
The efficiency of a quantum metrology protocol can be considerably reduced by the interaction of a quantum system with its environment, resulting in a loss of purity and, consequently, a mixed state for the probing system. In this paper we examine the potential of mixed spin-$j$ states to achieve sensitivity comparable, and even equal, to that of pure states in the measurement of infinitesimal rotations about arbitrary axes. We introduce the concept of mixed optimal quantum rotosensors based on a maximization of the Fisher quantum information and show that it is related to the notion of anticoherence of spin states and its generalization to subspaces. We present several examples of anticoherent subspaces and their associated mixed optimal quantum rotosensors. We also show that the latter maximize negativity for specific bipartitions, reaching the same maximum value as pure states. These results elucidate the interplay between quantum metrology of rotations, anticoherence and entanglement in the framework of mixed spin states. | 翻訳日:2024-05-14 23:10:20 公開日:2024-05-11 |
# 生成的対立ネットワークを用いたアイリス画像の合成:調査と比較分析
Synthesizing Iris Images using Generative Adversarial Networks: Survey and Comparative Analysis ( http://arxiv.org/abs/2404.17105v2 ) ライセンス: Link先を確認 | Shivangi Yadav, Arun Ross, | (参考訳) 虹彩認識に基づく生体認証システムは、現在、国境管理アプリケーションやモバイルデバイスで使用されている。
しかしながら、虹彩認識の研究は、ボナフィドイリドのデータセットの制限や、プレゼンテーション攻撃装置、クラス内変異の制限、プライバシー上の懸念など、様々な要因によって妨げられている。
これらの問題のいくつかは、合成虹彩データを使用することによって緩和することができる。
本稿では,現在最先端のGANベースの合成虹彩画像生成技術について概観的なレビューを行い,現実的かつ有用な虹彩画像の生成における強度と限界を評価し,虹彩認識システムとプレゼンテーション攻撃検出装置の両方に使用できることを示す。
そこで本研究では,合成虹彩生成に使用されてきた各種手法をまず調査し,StyleGAN,RaSGAN,CIT-GAN,iWarpGAN,StarGANなどに基づくジェネレータについて検討する。
次に、これらのモデルが生成した画像から、現実主義、一意性、生体的有用性について分析する。
この包括的分析は、堅牢な虹彩マッチング器や提示攻撃検出器の開発という文脈において、様々なGANの長所と短所を強調している。
Biometric systems based on iris recognition are currently being used in border control applications and mobile devices. However, research in iris recognition is stymied by various factors such as limited datasets of bonafide irides and presentation attack instruments; restricted intra-class variations; and privacy concerns. Some of these issues can be mitigated by the use of synthetic iris data. In this paper, we present a comprehensive review of state-of-the-art GAN-based synthetic iris image generation techniques, evaluating their strengths and limitations in producing realistic and useful iris images that can be used for both training and testing iris recognition systems and presentation attack detectors. In this regard, we first survey the various methods that have been used for synthetic iris generation and specifically consider generators based on StyleGAN, RaSGAN, CIT-GAN, iWarpGAN, StarGAN, etc. We then analyze the images generated by these models for realism, uniqueness, and biometric utility. This comprehensive analysis highlights the pros and cons of various GANs in the context of developing robust iris matchers and presentation attack detectors. | 翻訳日:2024-05-14 21:13:39 公開日:2024-05-11 |
# Work Smarter...Not Harder: SOV言語における依存性長の効率的な最小化
Work Smarter...Not Harder: Efficient Minimization of Dependency Length in SOV Languages ( http://arxiv.org/abs/2404.18684v2 ) ライセンス: Link先を確認 | Sidharth Ranjan, Titus von der Malsburg, | (参考訳) 依存長最小化(Dependency length minimization)は、自然言語の普遍的な定量的性質である。
しかし、依存関係長の最小化の程度と、言語プロセッサがこの最小化を実現する認知メカニズムはいまだに不明である。
本研究は, 主動詞の横にある短い前動詞構成詞を移動させることで, SOV言語における依存関係長の国際最小化よりも, 事前詞構成詞の順序決定が優れていることを示唆して, 機械的洞察を提供する。
このアプローチは1つの操作に過ぎないが、主動詞に関連付けられたすべての前動詞依存の長さを同時に減少させるため、最小限の戦略を構成する。
我々は,Universal Dependency Treebankで顕著に表現されている7つのSOV言語すべてにわたる大規模コーパスエビデンスを用いて,この戦略を裏付ける。
これらの知見は、最適解の徹底的な探索というよりはむしろ「クイック・イット・エコノミカル」なヒューリスティックスによって意思決定が影響される有界有理性の概念と一致する。
全体として、この研究は言語決定と言語進化における有界合理性の役割に光を当てている。
Dependency length minimization is a universally observed quantitative property of natural languages. However, the extent of dependency length minimization, and the cognitive mechanisms through which the language processor achieves this minimization remain unclear. This research offers mechanistic insights by postulating that moving a short preverbal constituent next to the main verb explains preverbal constituent ordering decisions better than global minimization of dependency length in SOV languages. This approach constitutes a least-effort strategy because it's just one operation but simultaneously reduces the length of all preverbal dependencies linked to the main verb. We corroborate this strategy using large-scale corpus evidence across all seven SOV languages that are prominently represented in the Universal Dependency Treebank. These findings align with the concept of bounded rationality, where decision-making is influenced by 'quick-yet-economical' heuristics rather than exhaustive searches for optimal solutions. Overall, this work sheds light on the role of bounded rationality in linguistic decision-making and language evolution. | 翻訳日:2024-05-14 21:13:38 公開日:2024-05-11 |
# パラメトリック変調量子ビットを用いたオンデマンド形光子放射
On-demand shaped photon emission based on a parametrically modulated qubit ( http://arxiv.org/abs/2405.01464v2 ) ライセンス: Link先を確認 | Xiang Li, Sheng-Yong Li, Si-Lu Zhao, Zheng-Yang Mei, Yang He, Cheng-Lin Deng, Yu Liu, Yan-Jun Liu, Gui-Han Liang, Jin-Zhe Wang, Xiao-Hui Song, Kai Xu, Fan Heng, Yu-Xiang Zhang, Zhong-Cheng Xiang, Dong-Ning Zheng, | (参考訳) 回路量子力学アーキテクチャでは、飛行光子を介する長距離量子ネットワークを実現するためには、2つの量子ノード間の高い転送効率を達成するために、放出光子の時間プロファイルを形成する必要がある。
本研究では,新しい単線・双線時間ビン型光子生成器を,追加のフラックス可変素子を使わずに実演し,点対点量子ネットワークの量子インターフェースとして機能することを示す。
提案手法では,qubit-resonator-transmission line 構成を採用し,qubit-resonator 間の有効結合強度は,qubit 周波数のパラメトリック変調により変化させることができる。
このように、結合はパラメトリック変調振幅に直接比例し、使用したサンプルに対して20MHzを超える広い可変範囲をカバーする。
さらに、形状光子を放出する際、パラメトリック変調によるスプリアス周波数シフト(-0.4MHz)が小さく、チャープによって容易に校正できることがわかった。
我々は,GPUのデータストリーム処理に基づく効率的な光子場計測装置を開発した。
本システムを用いて,光子時間分布測定,光子場の量子状態トモグラフィ,ヘテロダイン測定に基づく単一レール量子状態移動の量子プロセストモグラフィを行う。
形状光子放出の1本のレール符号化状態の転写忠実度は90.32%であり、未形状光子についてはそれぞれ97.20%である。
我々は、形状光子放射の忠実度は、主にクビットコヒーレンス時間によって制限されると考えている。
その結果,本手法はハードウェア効率が高く,実装が簡単で,拡張性が高いことがわかった。
シングルレールとデュアルレールのタイムビンエンコーディングの両方を利用して、高品質な量子ネットワークで実行可能なツールになり得る。
In the circuit quantum electrodynamics architectures, to realize a long-range quantum network mediated by flying photon, it is necessary to shape the temporal profile of emitted photons to achieve high transfer efficiency between two quantum nodes. In this work, we demonstrate a new single-rail and dual-rail time-bin shaped photon generator without additional flux-tunable elements, which can act as a quantum interface of a point-to-point quantum network. In our approach, we adopt a qubit-resonator-transmission line configuration, and the effective coupling strength between the qubit and the resonator can be varied by parametrically modulating the qubit frequency. In this way, the coupling is directly proportional to the parametric modulation amplitude and covers a broad tunable range beyond 20 MHz for the sample we used. Additionally, when emitting shaped photons, we find that the spurious frequency shift (-0.4 MHz) due to parametric modulation is small and can be readily calibrated through chirping. We develop an efficient photon field measurement setup based on the data stream processing of GPU. Utilizing this system, we perform photon temporal profile measurement, quantum state tomography of photon field, and quantum process tomography of single-rail quantum state transfer based on a heterodyne measurement scheme. The single-rail encoding state transfer fidelity of shaped photon emission is 90.32%, and that for unshaped photon is 97.20%, respectively. We believe that the fidelity of shaped photon emission is mainly limited by the qubit coherence time. The results demonstrate that our method is hardware efficient, simple to implement, and scalable. It could become a viable tool in a high-quality quantum network utilizing both single-rail and dual-rail time-bin encoding. | 翻訳日:2024-05-14 21:03:09 公開日:2024-05-11 |
# MVP-Shot:Few-Shotアクション認識のためのマルチ速度プログレッシブアライメントフレームワーク
MVP-Shot: Multi-Velocity Progressive-Alignment Framework for Few-Shot Action Recognition ( http://arxiv.org/abs/2405.02077v2 ) ライセンス: Link先を確認 | Hongyu Qu, Rui Yan, Xiangbo Shu, Hailiang Gao, Peng Huang, Guo-Sen Xie, | (参考訳) 最近の数発アクション認識(FSAR)法は、学習した識別的特徴に対して意味マッチングを行うことにより、有望な性能を達成する。
しかしながら、ほとんどのFSARメソッドは単一スケール(例えば、フレームレベル、セグメントレベル、 \etc)の機能アライメントに焦点を当てており、同じ意味を持つ人間のアクションが異なる速度で現れる可能性があることを無視している。
この目的のために我々は,多速度レベルで意味関連行動特徴を段階的に学習・調整する,新しいMVP-Shotフレームワークを開発した。
具体的には、MVFA(Multi-Velocity Feature Alignment)モジュールは、サポートビデオとクエリビデオの類似度を異なる速度スケールで測定し、すべての類似度スコアを残高な方法でマージするように設計されている。
提案するプログレッシブ・セマンティック・タイラード・インタラクション(PSTI)モジュールは,動作意味から逸脱する複数の速度特性を避けるため,異なる速度でチャネルと時間領域の機能相互作用を通じて,速度調整されたテキスト情報をビデオ特徴に注入する。
上記の2つのモジュールは相互に補償し、数ショット設定でクエリカテゴリをより正確に予測する。
実験結果から,本手法は複数の標準ショットベンチマーク(HMDB51, UCF101, Kinetics, SSv2-small)において,最先端の手法よりも優れていた。
Recent few-shot action recognition (FSAR) methods achieve promising performance by performing semantic matching on learned discriminative features. However, most FSAR methods focus on single-scale (e.g., frame-level, segment-level, \etc) feature alignment, which ignores that human actions with the same semantic may appear at different velocities. To this end, we develop a novel Multi-Velocity Progressive-alignment (MVP-Shot) framework to progressively learn and align semantic-related action features at multi-velocity levels. Concretely, a Multi-Velocity Feature Alignment (MVFA) module is designed to measure the similarity between features from support and query videos with different velocity scales and then merge all similarity scores in a residual fashion. To avoid the multiple velocity features deviating from the underlying motion semantic, our proposed Progressive Semantic-Tailored Interaction (PSTI) module injects velocity-tailored text information into the video feature via feature interaction on channel and temporal domains at different velocities. The above two modules compensate for each other to predict query categories more accurately under the few-shot settings. Experimental results show our method outperforms current state-of-the-art methods on multiple standard few-shot benchmarks (i.e., HMDB51, UCF101, Kinetics, and SSv2-small). | 翻訳日:2024-05-14 21:03:09 公開日:2024-05-11 |
# スパース・テセリンマシン:アクティブリテラルを用いたスパース表現
The Sparse Tsetlin Machine: Sparse Representation with Active Literals ( http://arxiv.org/abs/2405.02375v2 ) ライセンス: Link先を確認 | Sebastian Østby, Tobias M. Brambo, Sondre Glimsdal, | (参考訳) 本稿では、スパースデータを効率的に処理する新しいTsetlin Machine(TM)であるSparse Tsetlin Machine(STM)を紹介する。
伝統的に、TMは、NLPアプリケーションやその他の単語のバッグベースの表現でよく見られるような、空間性のようなデータ特性を考慮していない。
その結果、TMは、かなりの数のゼロ値を初期化し、保存し、処理し、結果として過剰なメモリ使用量と計算時間をもたらす。
スパースTMを作成する試みは、主に、どのリテラルがTMトレーニングに十分であるかを識別できないため、主に失敗に終わっている。
Active Literals (AL)を導入することで、STMは現在のデータ表現に積極的に貢献するリテラルにのみ焦点を絞ることができる。
This paper introduces the Sparse Tsetlin Machine (STM), a novel Tsetlin Machine (TM) that processes sparse data efficiently. Traditionally, the TM does not consider data characteristics such as sparsity, commonly seen in NLP applications and other bag-of-word-based representations. Consequently, a TM must initialize, store, and process a significant number of zero values, resulting in excessive memory usage and computational time. Previous attempts at creating a sparse TM have predominantly been unsuccessful, primarily due to their inability to identify which literals are sufficient for TM training. By introducing Active Literals (AL), the STM can focus exclusively on literals that actively contribute to the current data representation, significantly decreasing memory footprint and computational time while demonstrating competitive classification performance. | 翻訳日:2024-05-14 21:03:09 公開日:2024-05-11 |
# 残留条件の最適輸送-構造保存型未ペア画像復元を目指して-
Residual-Conditioned Optimal Transport: Towards Structure-Preserving Unpaired and Paired Image Restoration ( http://arxiv.org/abs/2405.02843v2 ) ライセンス: Link先を確認 | Xiaole Tang, Xin Hu, Xiang Gu, Jian Sun, | (参考訳) 深層学習に基づく画像復元法は、通常、元の画像の構造を忠実に保存することに苦労する。
本研究では, 画像復元を未ペアとペアの双方で最適輸送(OT)問題としてモデル化し, 輸送コストと輸送マップの双方に対して, ユニークな劣化専用キューとしてトランスポート残差を導入する, RCOT (Residual-Conditioned Optimal Transport) アプローチを提案する。
具体的には,まず,残余の劣化特異的情報を輸送コストに組み込むことで,フーリエ残余誘導型OT目標を定式化する。
さらに、トランスポートマップを、ベースモデルとリファインメントプロセスからなる2パスRCOTマップとして設計し、トランスポート残差をベースモデルによって第1パスで計算し、その後、第2パス復元条件に分解特異的な埋め込みとして符号化する。
二重性により、RCOT問題は最小限の最適化問題に変換され、ニューラルネットワークを敵対的に訓練することで解決される。
複数の復元タスクに関する大規模な実験により、RCOTは歪み測定と知覚品質の両方の観点から競争性能を達成し、最先端の手法と比較してより忠実な構造で画像を復元することを示した。
Deep learning-based image restoration methods generally struggle with faithfully preserving the structures of the original image. In this work, we propose a novel Residual-Conditioned Optimal Transport (RCOT) approach, which models image restoration as an optimal transport (OT) problem for both unpaired and paired settings, introducing the transport residual as a unique degradation-specific cue for both the transport cost and the transport map. Specifically, we first formalize a Fourier residual-guided OT objective by incorporating the degradation-specific information of the residual into the transport cost. We further design the transport map as a two-pass RCOT map that comprises a base model and a refinement process, in which the transport residual is computed by the base model in the first pass and then encoded as a degradation-specific embedding to condition the second-pass restoration. By duality, the RCOT problem is transformed into a minimax optimization problem, which can be solved by adversarially training neural networks. Extensive experiments on multiple restoration tasks show that RCOT achieves competitive performance in terms of both distortion measures and perceptual quality, restoring images with more faithful structures as compared with state-of-the-art methods. | 翻訳日:2024-05-14 21:03:09 公開日:2024-05-11 |
# DVMSR:高効率高分解能ビジョンマンバ
DVMSR: Distillated Vision Mamba for Efficient Super-Resolution ( http://arxiv.org/abs/2405.03008v2 ) ライセンス: Link先を確認 | Xiaoyan Lei, Wenlong Zhang, Weifeng Cao, | (参考訳) 効率的な画像超解法(SR)は、性能を保ちながら計算複雑性とネットワークパラメータを最小化し、SRネットワークの推論を高速化することを目的としている。
既存の最先端画像超解法は畳み込みニューラルネットワークに基づいている。
Mambaは、その長距離モデリング能力と効率的な計算複雑性を活用するためにいくつかの試みがなされており、これはハイレベルな視覚タスクにおける印象的なパフォーマンスを示している。
本稿では,ビジョン・マンバと蒸留戦略を組み込んだ新しい軽量画像SRネットワークであるDVMSRを提案する。
DVMSRのネットワークは、特徴抽出畳み込み、複数のスタック化されたResidual State Space Blocks (RSSB)、再構築モジュールの3つのモジュールで構成されている。
具体的には、深部特徴抽出モジュールは、いくつかの残状態空間ブロック(RSSB)で構成され、それぞれが複数のViMM(Vision Mamba Moudles)と残接続を有する。
高い性能を保ちながら効率向上を図るため,我々はビジョン・マンバネットワークに蒸留戦略を適用した。
具体的には、教師ネットワークの豊かな表現知識を、軽量な学生ネットワークの出力のための追加の監督として活用する。
提案したDVMSRは,PSNRとSSIMの両方の性能を維持しつつ,モデルパラメータの観点から,最先端のSR手法より優れていることを示した。
ソースコードはhttps://github.com/nathan66666/DVMSR.gitで入手できる。
Efficient Image Super-Resolution (SR) aims to accelerate SR network inference by minimizing computational complexity and network parameters while preserving performance. Existing state-of-the-art Efficient Image Super-Resolution methods are based on convolutional neural networks. Few attempts have been made with Mamba to harness its long-range modeling capability and efficient computational complexity, which have shown impressive performance on high-level vision tasks. In this paper, we propose DVMSR, a novel lightweight Image SR network that incorporates Vision Mamba and a distillation strategy. The network of DVMSR consists of three modules: feature extraction convolution, multiple stacked Residual State Space Blocks (RSSBs), and a reconstruction module. Specifically, the deep feature extraction module is composed of several residual state space blocks (RSSB), each of which has several Vision Mamba Moudles(ViMM) together with a residual connection. To achieve efficiency improvement while maintaining comparable performance, we employ a distillation strategy to the vision Mamba network for superior performance. Specifically, we leverage the rich representation knowledge of teacher network as additional supervision for the output of lightweight student networks. Extensive experiments have demonstrated that our proposed DVMSR can outperform state-of-the-art efficient SR methods in terms of model parameters while maintaining the performance of both PSNR and SSIM. The source code is available at https://github.com/nathan66666/DVMSR.git | 翻訳日:2024-05-14 20:52:15 公開日:2024-05-11 |
# メディアパイプホロスティックフルボディポーズ推定における手領域検出の最適化による精度向上と下流誤差回避
Optimizing Hand Region Detection in MediaPipe Holistic Full-Body Pose Estimation to Improve Accuracy and Avoid Downstream Errors ( http://arxiv.org/abs/2405.03545v2 ) ライセンス: Link先を確認 | Amit Moryossef, | (参考訳) 本稿では,非理想的手振りに苦慮し,手話認識の精度に影響を及ぼすMediaPipe Holisticの手指領域(ROI)予測の重大な欠陥に対処する。
本稿では,手書きキーポイントとz次元を含む豊富な特徴セットを活用し,ROI推定を向上させるためのデータ駆動型手法を提案する。
提案手法は, 従来手法よりも高いインターセクション・オーバー・ユニオンで, より優れた推定値を示す。
私たちのコードと最適化はhttps://github.com/sign-lang-processing/mediapipe-hand-crop-fix.comで公開されています。
This paper addresses a critical flaw in MediaPipe Holistic's hand Region of Interest (ROI) prediction, which struggles with non-ideal hand orientations, affecting sign language recognition accuracy. We propose a data-driven approach to enhance ROI estimation, leveraging an enriched feature set including additional hand keypoints and the z-dimension. Our results demonstrate better estimates, with higher Intersection-over-Union compared to the current method. Our code and optimizations are available at https://github.com/sign-language-processing/mediapipe-hand-crop-fix. | 翻訳日:2024-05-14 20:52:15 公開日:2024-05-11 |
# 機械学習による大規模言語モデルの構築
Large Language Models Synergize with Automated Machine Learning ( http://arxiv.org/abs/2405.03727v2 ) ライセンス: Link先を確認 | Jinglue Xu, Jialong Li, Zhen Liu, Nagar Anthel Venkatesh Suryanarayanan, Guoyuan Zhou, Jia Guo, Hitoshi Iba, Kenji Tei, | (参考訳) 近年,大規模言語モデル (LLM) によるプログラム合成が普及している。
しかし、機械学習(ML)タスクのためのプログラム合成は依然として大きな課題となっている。
本稿では、LLMと自動機械学習(autoML)を組み合わせることで、MLプログラムをターゲットとしたプログラム合成の新しい形式について検討する。
具体的には、MLタスクのテキスト記述のみを活用することで、データ準備からモデリング、後処理に至るまで、MLワークフロー全体のコード生成と最適化を完全に自動化することを目的としています。
MLプログラムの長さと多様性を管理するため,各プログラムを小さく,管理可能な部分に分割することを提案する。
各部品はLLMによって別々に生成され、適合性を慎重に考慮する。
適合性を確保するため,我々はMLプログラムのテスト手法を設計する。
従来のプログラム合成とは異なり、二項評価(すなわち正しいか間違っているか)に依存し、MLプログラムの評価は二項判定以上のものを必要とする。
そこで我々は,MLプログラムを数値的に評価し,AutoML手法を用いて様々な候補から最適なプログラムを選択する。
各種MLタスクに対する実験では、MLプログラムを生成するための12タスク中10タスクにおいて、既存のメソッドよりも優れています。
さらに、AutoMLは生成されたMLプログラムのパフォーマンスを大幅に改善する。
テキストによるタスク記述を前提とした実験では,本手法は完全かつ最適化されたMLプログラムを完全自律的なプロセスで生成する。
Recently, program synthesis driven by large language models (LLMs) has become increasingly popular. However, program synthesis for machine learning (ML) tasks still poses significant challenges. This paper explores a novel form of program synthesis, targeting ML programs, by combining LLMs and automated machine learning (autoML). Specifically, our goal is to fully automate the generation and optimization of the code of the entire ML workflow, from data preparation to modeling and post-processing, utilizing only textual descriptions of the ML tasks. To manage the length and diversity of ML programs, we propose to break each ML program into smaller, manageable parts. Each part is generated separately by the LLM, with careful consideration of their compatibilities. To ensure compatibilities, we design a testing technique for ML programs. Unlike traditional program synthesis, which typically relies on binary evaluations (i.e., correct or incorrect), evaluating ML programs necessitates more than just binary judgments. Therefore, we further assess ML programs numerically and select the optimal programs from a range of candidates using AutoML methods. In experiments across various ML tasks, our method outperforms existing methods in 10 out of 12 tasks for generating ML programs. In addition, autoML significantly improves the performance of the generated ML programs. In experiments, given the textual task description, our method, Text-to-ML, generates the complete and optimized ML program in a fully autonomous process. | 翻訳日:2024-05-14 20:52:15 公開日:2024-05-11 |
# 共進化学習アルゴリズムと帯域学習アルゴリズムの集中位置境界解析
Concentration Tail-Bound Analysis of Coevolutionary and Bandit Learning Algorithms ( http://arxiv.org/abs/2405.04480v2 ) ライセンス: Link先を確認 | Per Kristian Lehre, Shishen Lin, | (参考訳) AI理論の分岐として、実行時解析は、解(実行時)を見つける前に、アルゴリズムの繰り返し数がどのように取るかを、アルゴリズムの設計と問題構造に依存する。
ドリフト分析(Drift analysis)は、進化的アルゴリズムやバンディットアルゴリズムのようなランダム化アルゴリズムのランタイムを推定するための最先端のツールである。
ドリフト(Drift)とは、イテレーション毎の最適化に向けた期待される進歩を指す。
本稿では,アルゴリズムの実行時/実行時/実行時における集中テールバウンドを導出する問題について考察する。
この定理は、正、弱、零、負のドリフトが与えられた正確な指数的なテールバウンドを与える新しいドリフト定理を提供する。
以前は、弱い、ゼロ、負のドリフトの場合、そのような指数的な尾の境界は失われていた。
我々のドリフト定理は、AIにおけるアルゴリズムのランタイム/レグレットの強い集中力を証明するのに使うことができる。
例えば、Sharwabbanditアルゴリズムの後悔は極めて集中しており、以前の分析では期待された後悔のみを考慮していた。
これはアルゴリズムが与えられた時間枠内で高い確率、すなわちアルゴリズムの信頼性の形で最適な値を得ることを意味する。
さらに, 共進化アルゴリズム RLS-PD により, 双線型極小ベンチマーク問題におけるナッシュ平衡を得るのに必要な時間は, 高度に集中していることが示唆された。
しかし、このアルゴリズムはナッシュ平衡を忘れており、この現象が起こるまでの時間は高度に集中していることも証明している。
これは今後の作業で対処すべきRSS-PDの弱点を浮き彫りにする。
Runtime analysis, as a branch of the theory of AI, studies how the number of iterations algorithms take before finding a solution (its runtime) depends on the design of the algorithm and the problem structure. Drift analysis is a state-of-the-art tool for estimating the runtime of randomised algorithms, such as evolutionary and bandit algorithms. Drift refers roughly to the expected progress towards the optimum per iteration. This paper considers the problem of deriving concentration tail-bounds on the runtime/regret of algorithms. It provides a novel drift theorem that gives precise exponential tail-bounds given positive, weak, zero and even negative drift. Previously, such exponential tail bounds were missing in the case of weak, zero, or negative drift. Our drift theorem can be used to prove a strong concentration of the runtime/regret of algorithms in AI. For example, we prove that the regret of the \rwab bandit algorithm is highly concentrated, while previous analyses only considered the expected regret. This means that the algorithm obtains the optimum within a given time frame with high probability, i.e. a form of algorithm reliability. Moreover, our theorem implies that the time needed by the co-evolutionary algorithm RLS-PD to obtain a Nash equilibrium in a \bilinear max-min-benchmark problem is highly concentrated. However, we also prove that the algorithm forgets the Nash equilibrium, and the time until this occurs is highly concentrated. This highlights a weakness in the RLS-PD which should be addressed by future work. | 翻訳日:2024-05-14 20:52:15 公開日:2024-05-11 |
# LLMに基づくフィードバックの強化:知的学習システムと学習科学からの洞察
Enhancing LLM-Based Feedback: Insights from Intelligent Tutoring Systems and the Learning Sciences ( http://arxiv.org/abs/2405.04645v2 ) ライセンス: Link先を確認 | John Stamper, Ruiwei Xiao, Xinying Hou, | (参考訳) 人工知能・イン・エデュケーション(AIED)の分野は、テクノロジー、教育、心理学の共通点に焦点を当て、思いやりと理解による学習者のニーズ支援に重点を置いている。
LLM(Large Language Models)の普及は、Intelligent Tutoring Systemsでさまざまなタイプのフィードバックを生成することを含む、教育環境におけるスケーラブルなソリューションの開発につながった。
しかし、これらのモデルを活用するためのアプローチは、しばしば特定の情報を引き出すための直接的なプロンプトを定式化し、それらが学習に与える影響を迅速に構築し実証的な評価を行うためのしっかりとした理論的基盤を欠いている。
この研究は、ITSにおけるフィードバック生成に関する以前の研究を通し、それらが利用した理論的な枠組みと、それに対応する設計の有効性を実証的な評価で強調し、これらのエビデンスに基づく原則をLLMベースのフィードバック生成の設計、実験、評価フェーズに適用する機会を提案する。
本稿の主な貢献は, 生成AI時代のフィードバック生成において, より慎重で理論的に根ざした手法を適用すること, および LLM を利用した ITS の理論とエビデンスに基づくフィードバック設計に関する実践的提案である。
The field of Artificial Intelligence in Education (AIED) focuses on the intersection of technology, education, and psychology, placing a strong emphasis on supporting learners' needs with compassion and understanding. The growing prominence of Large Language Models (LLMs) has led to the development of scalable solutions within educational settings, including generating different types of feedback in Intelligent Tutoring Systems. However, the approach to utilizing these models often involves directly formulating prompts to solicit specific information, lacking a solid theoretical foundation for prompt construction and empirical assessments of their impact on learning. This work advocates careful and caring AIED research by going through previous research on feedback generation in ITS, with emphasis on the theoretical frameworks they utilized and the efficacy of the corresponding design in empirical evaluations, and then suggesting opportunities to apply these evidence-based principles to the design, experiment, and evaluation phases of LLM-based feedback generation. The main contributions of this paper include: an avocation of applying more cautious, theoretically grounded methods in feedback generation in the era of generative AI; and practical suggestions on theory and evidence-based feedback design for LLM-powered ITS. | 翻訳日:2024-05-14 20:52:15 公開日:2024-05-11 |
# 複雑な産業画像に対する教師付き異常検出
Supervised Anomaly Detection for Complex Industrial Images ( http://arxiv.org/abs/2405.04953v2 ) ライセンス: Link先を確認 | Aimira Baitieva, David Hurych, Victor Besnier, Olivier Bernard, | (参考訳) 産業生産ラインにおける視覚検査の自動化は、様々な産業における製品品質向上に不可欠である。
異常検出(AD)法はこの目的のために堅牢なツールとして機能する。
しかし、既存のパブリックデータセットは、主に異常のないイメージで構成されており、プロダクション設定におけるADメソッドの実践的適用を制限している。
この課題に対処するため,(1)Valeo Anomaly Dataset(VAD)を提案する。
従来のADメソッドがこのデータセットに苦労していることを認識し,(2)セグメンテーションベースの異常検出器(SegAD)を紹介する。
まず、SegADは異常マップとセグメンテーションマップを利用して局所統計を計算する。
次に、SegADはこれらの統計値と任意の教師付き分類器スコアをBoosted Random Forest (BRF)分類器の入力特徴として使用し、最終的な異常スコアを得る。
私たちのSegADは、AD(+2.1% AUROC)とVisAデータセット(+0.4% AUROC)の両方で最先端のパフォーマンスを実現しています。
コードとモデルは公開されています。
Automating visual inspection in industrial production lines is essential for increasing product quality across various industries. Anomaly detection (AD) methods serve as robust tools for this purpose. However, existing public datasets primarily consist of images without anomalies, limiting the practical application of AD methods in production settings. To address this challenge, we present (1) the Valeo Anomaly Dataset (VAD), a novel real-world industrial dataset comprising 5000 images, including 2000 instances of challenging real defects across more than 20 subclasses. Acknowledging that traditional AD methods struggle with this dataset, we introduce (2) Segmentation-based Anomaly Detector (SegAD). First, SegAD leverages anomaly maps as well as segmentation maps to compute local statistics. Next, SegAD uses these statistics and an optional supervised classifier score as input features for a Boosted Random Forest (BRF) classifier, yielding the final anomaly score. Our SegAD achieves state-of-the-art performance on both VAD (+2.1% AUROC) and the VisA dataset (+0.4% AUROC). The code and the models are publicly available. | 翻訳日:2024-05-14 20:52:15 公開日:2024-05-11 |
# 文書中のテーブル検出のための修正対象クエリを用いたエンド・ツー・エンド半監視手法
End-to-End Semi-Supervised approach with Modulated Object Queries for Table Detection in Documents ( http://arxiv.org/abs/2405.04971v2 ) ライセンス: Link先を確認 | Iqraa Ehsan, Tahira Shehzadi, Didier Stricker, Muhammad Zeshan Afzal, | (参考訳) 文書解析における重要なタスクであるテーブル検出は、文書画像内のテーブルを正確に認識し、特定することを目的としている。
ディープラーニングはこの領域で顕著な進歩を見せているが、通常、熟練したトレーニングのためにラベル付きデータの広範なデータセットを必要とする。
現在のCNNベースの半教師付きテーブル検出アプローチでは、アンカー生成プロセスと非最大抑圧(NMS)を検出プロセスに使用し、トレーニング効率を制限している。
一方、トランスフォーマーベースの半教師付き技術は、ノイズの多い擬似ラベルを提供する1対1のマッチング戦略を採用し、全体的な効率を制限した。
本研究では,革新的な変圧器を用いた半教師付きテーブル検出器を提案する。
1対1と1対1の割り当て技術を組み合わせた新しいマッチング戦略により、擬似ラベルの品質を向上させる。
このアプローチは、早期のトレーニング効率を大幅に向上させ、さらなるトレーニングのために優れた擬似ラベルを確保する。
我々の半教師付きアプローチは、PubLayNet、ICADR-19、TableBankなどのベンチマークデータセットで包括的に評価されます。
従来の半教師付きテーブル検出手法よりも7.4点と7.6点の改善を達成し、TableBank(ワード)とPubLaynetで95.7%と97.9%のmAPを達成している。
その結果,既存の最先端手法を実質的なマージンで上回る半教師ありアプローチの優位性を示した。
本研究は, 半教師付きテーブル検出手法の大幅な進歩を示し, 実用的な文書解析タスクに対して, より効率的かつ正確な解法を提供する。
Table detection, a pivotal task in document analysis, aims to precisely recognize and locate tables within document images. Although deep learning has shown remarkable progress in this realm, it typically requires an extensive dataset of labeled data for proficient training. Current CNN-based semi-supervised table detection approaches use the anchor generation process and Non-Maximum Suppression (NMS) in their detection process, limiting training efficiency. Meanwhile, transformer-based semi-supervised techniques adopted a one-to-one match strategy that provides noisy pseudo-labels, limiting overall efficiency. This study presents an innovative transformer-based semi-supervised table detector. It improves the quality of pseudo-labels through a novel matching strategy combining one-to-one and one-to-many assignment techniques. This approach significantly enhances training efficiency during the early stages, ensuring superior pseudo-labels for further training. Our semi-supervised approach is comprehensively evaluated on benchmark datasets, including PubLayNet, ICADR-19, and TableBank. It achieves new state-of-the-art results, with a mAP of 95.7% and 97.9% on TableBank (word) and PubLaynet with 30% label data, marking a 7.4 and 7.6 point improvement over previous semi-supervised table detection approach, respectively. The results clearly show the superiority of our semi-supervised approach, surpassing all existing state-of-the-art methods by substantial margins. This research represents a significant advancement in semi-supervised table detection methods, offering a more efficient and accurate solution for practical document analysis tasks. | 翻訳日:2024-05-14 20:52:15 公開日:2024-05-11 |
# HC-Mamba:医療画像分割のためのハイブリッド畳み込み技術を用いたビジョンMAMBA
HC-Mamba: Vision MAMBA with Hybrid Convolutional Techniques for Medical Image Segmentation ( http://arxiv.org/abs/2405.05007v2 ) ライセンス: Link先を確認 | Jiashu Xu, | (参考訳) 自動医用画像分割技術は、病理診断を迅速化し、患者医療の効率を向上する可能性がある。
しかし、医療画像は複雑なテクスチャや構造を持つことが多く、ダウンサンプリングによる画像解像度の低下や情報損失といった問題に直面していることが多い。
この問題に対処するため,現代空間モデルMambaに基づく新しい医用画像分割モデルHC-Mambaを提案する。
具体的には、HC-Mambaモデルにおける拡張畳み込み手法を導入し、畳み込みカーネルの知覚場を拡張して計算コストを増大させることなく、より広い範囲の文脈情報をキャプチャする。
さらに、HC-Mambaモデルでは、深度的に分離可能な畳み込みを採用し、パラメータの数とモデルの計算能力を大幅に削減する。
拡張畳み込みと深度的に分離可能な畳み込みを組み合わせることで、HC-Mambaは高レベルの性能を維持しながら、より低い計算コストで大規模医療画像データを処理できる。
臓器の分節や皮膚病変などの分節作業に関する包括的実験を行い,Synapse,ISIC17,ISIC18について広範な実験を行い,HC-Mambaモデルの有用性について検討した。
実験の結果,HC-Mambaはこれらのデータセットの競合性能を示し,医用画像のセグメンテーションの有効性と有用性を示した。
Automatic medical image segmentation technology has the potential to expedite pathological diagnoses, thereby enhancing the efficiency of patient care. However, medical images often have complex textures and structures, and the models often face the problem of reduced image resolution and information loss due to downsampling. To address this issue, we propose HC-Mamba, a new medical image segmentation model based on the modern state space model Mamba. Specifically, we introduce the technique of dilated convolution in the HC-Mamba model to capture a more extensive range of contextual information without increasing the computational cost by extending the perceptual field of the convolution kernel. In addition, the HC-Mamba model employs depthwise separable convolutions, significantly reducing the number of parameters and the computational power of the model. By combining dilated convolution and depthwise separable convolutions, HC-Mamba is able to process large-scale medical image data at a much lower computational cost while maintaining a high level of performance. We conduct comprehensive experiments on segmentation tasks including organ segmentation and skin lesion, and conduct extensive experiments on Synapse, ISIC17 and ISIC18 to demonstrate the potential of the HC-Mamba model in medical image segmentation. The experimental results show that HC-Mamba exhibits competitive performance on all these datasets, thereby proving its effectiveness and usefulness in medical image segmentation. | 翻訳日:2024-05-14 20:52:15 公開日:2024-05-11 |
# 離散時間ReLUリカレントニューラルネットワークの安定性と性能解析
Stability and Performance Analysis of Discrete-Time ReLU Recurrent Neural Networks ( http://arxiv.org/abs/2405.05236v2 ) ライセンス: Link先を確認 | Sahel Vahedi Noori, Bin Hu, Geir Dullerud, Peter Seiler, | (参考訳) 本稿では、ReLUアクティベーション機能付きリカレントニューラルネットワーク(RNN)の安定性と$\ell_2$-gein性能について述べる。
これらの条件は、リアプノフ/異方性理論と、繰り返しReLUによって満たされる二次制約(QC)を組み合わせることによって導かれる。
我々は、スカラーReLUの既知の特性を用いて、繰り返しRELUに対するQCの一般的なクラスを記述する。
我々の安定性と性能条件は、これらのQCとReLU RNNの"リフト"表現を使います。
本研究では、スカラー ReLU で満たされる正の均一性は、繰り返し ReLU に対して QC のクラスを拡大しないことを示す。
本稿では, 安定/性能条件を実証し, 昇降地平線の効果について検討する。
This paper presents sufficient conditions for the stability and $\ell_2$-gain performance of recurrent neural networks (RNNs) with ReLU activation functions. These conditions are derived by combining Lyapunov/dissipativity theory with Quadratic Constraints (QCs) satisfied by repeated ReLUs. We write a general class of QCs for repeated RELUs using known properties for the scalar ReLU. Our stability and performance condition uses these QCs along with a "lifted" representation for the ReLU RNN. We show that the positive homogeneity property satisfied by a scalar ReLU does not expand the class of QCs for the repeated ReLU. We present examples to demonstrate the stability / performance condition and study the effect of the lifting horizon. | 翻訳日:2024-05-14 20:41:54 公開日:2024-05-11 |
# ポザー:内部を操作してLSMを偽装するアライメント
Poser: Unmasking Alignment Faking LLMs by Manipulating Their Internals ( http://arxiv.org/abs/2405.05466v2 ) ライセンス: Link先を確認 | Joshua Clymer, Caden Juang, Severin Field, | (参考訳) 捜査中の犯罪者のように、LLM(Large Language Models)は、良い機会があるときに評価され、誤った振る舞いをしているふりをするかもしれない。
現在の解釈可能性法はこれらの「アライメントフェイカー」をキャッチできるのか?
そこで本研究では,ロールプレイシナリオにおけるアクション選択のために微調整された324組のLLMからなるベンチマークを提案する。
各ペアの1つのモデルは一貫して良性(整列)である。
他のモデルでは、捕らえられそうにないシナリオ(アライメント・フェイキング)で誤動作します。
この課題は、2つのモデルが同一に振る舞う入力のみを用いてアライメントフェイキングモデルを特定することである。
我々は5つの検出戦略を検証し、そのうちの1つはアライメントフェイカーの98%を識別する。
Like a criminal under investigation, Large Language Models (LLMs) might pretend to be aligned while evaluated and misbehave when they have a good opportunity. Can current interpretability methods catch these 'alignment fakers?' To answer this question, we introduce a benchmark that consists of 324 pairs of LLMs fine-tuned to select actions in role-play scenarios. One model in each pair is consistently benign (aligned). The other model misbehaves in scenarios where it is unlikely to be caught (alignment faking). The task is to identify the alignment faking model using only inputs where the two models behave identically. We test five detection strategies, one of which identifies 98% of alignment-fakers. | 翻訳日:2024-05-14 20:41:54 公開日:2024-05-11 |
# 頑健な深層学習のためのリウェイト事例への学習の再実装
Reimplementation of Learning to Reweight Examples for Robust Deep Learning ( http://arxiv.org/abs/2405.06859v1 ) ライセンス: Link先を確認 | Parth Patil, Ben Boardley, Jack Gardner, Emily Loiselle, Deerajkumar Parthipan, | (参考訳) ディープニューラルネットワーク(DNN)は、画像認識や診断など、多くの複雑な分析問題のモデルを作成するために使用されている。
DNNは、複雑なパターンや分布をモデル化する能力のため、マシンラーニングにおいて一般的なツールである。
しかし、これらのネットワークの性能は、モデルのトレーニングに使用されるデータの品質に大きく依存している。
これらのセットの2つの特性、ノイズラベルとトレーニングセットバイアスは、トレーニングセットに過度に適合した結果、しばしば一般化性能が低下することが知られている。
本稿では,メタトレーニングとオンラインウェイト近似を用いたRen et al (2018) のアプローチを用いて,この問題を解決することを目的とする。
我々はまず,Ren et al (2018) の著者らによる主張を粗末に検証し,さらに不均衡な画像データセットを用いた皮膚がん検出の現実的な問題を解決するために,アプローチの導入を試みる。
Deep neural networks (DNNs) have been used to create models for many complex analysis problems like image recognition and medical diagnosis. DNNs are a popular tool within machine learning due to their ability to model complex patterns and distributions. However, the performance of these networks is highly dependent on the quality of the data used to train the models. Two characteristics of these sets, noisy labels and training set biases, are known to frequently cause poor generalization performance as a result of overfitting to the training set. This paper aims to solve this problem using the approach proposed by Ren et al. (2018) using meta-training and online weight approximation. We will first implement a toy-problem to crudely verify the claims made by the authors of Ren et al. (2018) and then venture into using the approach to solve a real world problem of Skin-cancer detection using an imbalanced image dataset. | 翻訳日:2024-05-14 19:44:41 公開日:2024-05-11 |
# 複数の弱い相互作用を持つ強化双対ポインターによる超精密時間差測定
Ultraprecise time-difference measurement via enhanced dual pointers with multiple weak interactions ( http://arxiv.org/abs/2405.06863v1 ) ライセンス: Link先を確認 | Yanqiang Guo, Jianchao Zhang, Jiahui Hou, Xiaomin Guo, Liantuan Xiao, | (参考訳) 補助ポインタと単一弱い相互作用による標準弱測定は、測定精度と相互作用パラメータの量に制約を与え、弱値増幅(WVA)を特徴とする量子効果の魅力的な評価は、いまだ解明されていない。
ここでは、複数の弱い相互作用と可変スペクトル源に基づく拡張双対ポインターWVAスキームを理論的、実験的に実証する。
トリプル弱相互作用の発達に伴い、運動量Pポインタは6nmのスペクトル幅で3.34 \times {10^{-5}}$の最適時間差精度に達し、インテンシティIポインタは400kHzの直線幅で148.8 fmの変位分解能を達成する。
異常な弱値に関連する量子効果は、レゲット・ガルグ不等式の観測不能な違反によって明らかにされる。
I-pointerの弱い値は、複数の弱い相互作用と高い信号対雑音検出を用いて1478と測定され、標準の弱い測定よりも2次のWVA向上を実現する。
我々の研究は、挑戦的な環境での極小量子度測定の実践的な道を開く。
Standard weak measurement with an assistant pointer and single weak interaction constrains measurement precision and quantity of interaction parameters, and a compelling characterization of quantum effect featuring weak-value amplification (WVA) remains elusive. Here, we theoretically and experimentally demonstrate an enhanced dual-pointer WVA scheme based on multiple weak interactions and variable spectrum sources. Developing triple weak interactions, momentum P pointer reaches an optimal time-difference precision of $3.34 \times {10^{-5}}$ as at 6 nm spectral width, and intensity I pointer achieves a displacement resolution of 148.8 fm within 400 kHz linewidth. A quantum effect associated with an anomalous weak value is revealed by an observable violation of a Leggett-Garg inequality. The I-pointer weak value is measured to be 1478 using multiple weak interactions and high signal-to-noise detection, achieving a two-order-of-magnitude WVA enhancement compared to standard weak measurement. Our work opens up a practical avenue for minuscule quantumness measurements in challenging environments. | 翻訳日:2024-05-14 19:44:41 公開日:2024-05-11 |
# ニューラル量子状態トモグラフィーのためのブートストラップ古典影
Bootstrapping Classical Shadows for Neural Quantum State Tomography ( http://arxiv.org/abs/2405.06864v1 ) ライセンス: Link先を確認 | Wirawat Kokaew, Bohdan Kulchytskyy, Shunji Matsuura, Pooya Ronagh, | (参考訳) 従来のシャドウを用いたクロスエントロピー損失関数の最適化のための新しい推定器を導入するとともに,従来のシャドウから収集したスタビライザーサンプルを用いてトレーニング中の損失勾配を推定する新たな重要サンプリング手法を提案する。
この損失関数は、古典的な影の測定に基づいて訓練されたトランスフォーマーベースニューラルネットワークを用いて、GHZ状態の安定な再構成を実現するために利用できることを示す。
この損失関数はまた、混合状態の精製を表す神経量子状態の訓練を可能にする。
以上の結果から, 物理的に明確に定義された密度行列を表す自己回帰モデルの本質的な能力は, 純粋および混合状態の純度などの高次観測値と非線形観測値の両方を予測する上で, パウリをベースとした古典的シャドウトモグラフィーの弱点を克服できることが示唆された。
We investigate the advantages of using autoregressive neural quantum states as ansatze for classical shadow tomography to improve its predictive power.We introduce a novel estimator for optimizing the cross-entropy loss function using classical shadows, and a new importance sampling strategy for estimating the loss gradient during training using stabilizer samples collected from classical shadows. We show that this loss function can be used to achieve stable reconstruction of GHZ states using a transformer-based neural network trained on classical shadow measurements. This loss function also enables the training of neural quantum states representing purifications of mixed states. Our results show that the intrinsic capability of autoregressive models in representing physically well-defined density matrices allows us to overcome the weakness of Pauli-based classical shadow tomography in predicting both high-weight observables and nonlinear observables such as the purity of pure and mixed states. | 翻訳日:2024-05-14 19:44:41 公開日:2024-05-11 |
# 動画の破壊スタイルのミミリーアタック
Disrupting Style Mimicry Attacks on Video Imagery ( http://arxiv.org/abs/2405.06865v1 ) ライセンス: Link先を確認 | Josephine Passananti, Stanley Wu, Shawn Shan, Haitao Zheng, Ben Y. Zhao, | (参考訳) 生成AIモデルは、しばしば模倣攻撃の実行に使用される。そこでは、訓練済みのモデルを小さな画像のサンプルに微調整して、特定の興味のあるアーティストを模倣することを学ぶ。
研究者たちは、複数の反ミリ波保護ツール(ミスト、グレーズ、アンチダンボス)を導入しているが、最近の証拠は、ビデオをトレーニングデータ源とする模倣モデルの増加傾向を示している。
本稿では,映像におけるスタイルの模倣を妨害する手法を探求した経験について述べる。
まず、ビデオから抽出した個々のフレームをトレーニングすることで、模倣攻撃が成功することを示す。
本手法は, 各フレームに適用した場合に保護を提供することができるが, 連続したフレームの最適化結果において, ランダム性を利用して保護を除去する適応的対策に脆弱であることを示す。
我々は,フレームレベルの類似性に基づいて映像を短いシーンに分割するツールに依存しない新しいフレームワークを開発し,シーンごとの最適化ベースラインを用いて,フレーム間のランダム化を解消し,計算コストを削減した。
画像レベルの指標とエンド・ツー・エンドのユーザ・スタディを通じて、結果の保護が模倣(対策を含む)に対する保護を回復することを示す。
最後に、適応的な対策を開発し、それが我々のフレームワークに反するものであることを確かめる。
Generative AI models are often used to perform mimicry attacks, where a pretrained model is fine-tuned on a small sample of images to learn to mimic a specific artist of interest. While researchers have introduced multiple anti-mimicry protection tools (Mist, Glaze, Anti-Dreambooth), recent evidence points to a growing trend of mimicry models using videos as sources of training data. This paper presents our experiences exploring techniques to disrupt style mimicry on video imagery. We first validate that mimicry attacks can succeed by training on individual frames extracted from videos. We show that while anti-mimicry tools can offer protection when applied to individual frames, this approach is vulnerable to an adaptive countermeasure that removes protection by exploiting randomness in optimization results of consecutive (nearly-identical) frames. We develop a new, tool-agnostic framework that segments videos into short scenes based on frame-level similarity, and use a per-scene optimization baseline to remove inter-frame randomization while reducing computational cost. We show via both image level metrics and an end-to-end user study that the resulting protection restores protection against mimicry (including the countermeasure). Finally, we develop another adaptive countermeasure and find that it falls short against our framework. | 翻訳日:2024-05-14 19:44:41 公開日:2024-05-11 |
# 回帰の進化的特徴構築のためのシャープネスを考慮した最小化
Sharpness-Aware Minimization for Evolutionary Feature Construction in Regression ( http://arxiv.org/abs/2405.06869v1 ) ライセンス: Link先を確認 | Hengzhe Zhang, Qi Chen, Bing Xue, Wolfgang Banzhaf, Mengjie Zhang, | (参考訳) 近年,遺伝子プログラミング(GP)に基づく進化的特徴構築は大きな成功を収めている。
しかし、進化的特徴構築における主な課題は、トレーニングデータに過度に適合する傾向にあり、その結果、目に見えないデータに対する一般化が不十分であることである。
本研究では,PAC-Bayesian理論からインスピレーションを得て,関数空間におけるシャープネスを考慮した最小化法を提案する。
提案手法は,クロスバリデーション損失とともにシャープネスを最適化し,シャープネス低減層を設計することにより,GPの過度化問題を効果的に軽減する。
58個の実世界の回帰データセットによる実験結果から,提案手法はGPのオーバーフィッティング制御における6つの最先端の複雑性測定法よりも優れていることがわかった。
さらに、シャープネスを意識したGPのアンサンブルバージョンは、XGBoostやLightGBMを含む9つの微調整機械学習やシンボリック回帰アルゴリズムと比較して、優れた性能を示している。
In recent years, genetic programming (GP)-based evolutionary feature construction has achieved significant success. However, a primary challenge with evolutionary feature construction is its tendency to overfit the training data, resulting in poor generalization on unseen data. In this research, we draw inspiration from PAC-Bayesian theory and propose using sharpness-aware minimization in function space to discover symbolic features that exhibit robust performance within a smooth loss landscape in the semantic space. By optimizing sharpness in conjunction with cross-validation loss, as well as designing a sharpness reduction layer, the proposed method effectively mitigates the overfitting problem of GP, especially when dealing with a limited number of instances or in the presence of label noise. Experimental results on 58 real-world regression datasets show that our approach outperforms standard GP as well as six state-of-the-art complexity measurement methods for GP in controlling overfitting. Furthermore, the ensemble version of GP with sharpness-aware minimization demonstrates superior performance compared to nine fine-tuned machine learning and symbolic regression algorithms, including XGBoost and LightGBM. | 翻訳日:2024-05-14 19:44:41 公開日:2024-05-11 |
# eCAR: エッジ支援コラボレーション拡張現実フレームワーク
eCAR: edge-assisted Collaborative Augmented Reality Framework ( http://arxiv.org/abs/2405.06872v1 ) ライセンス: Link先を確認 | Jinwoo Jeon, Woontack Woo, | (参考訳) 本研究では,大規模屋内環境におけるエッジ支援型多ユーザ協調拡張現実フレームワークを提案する。
Collaborative Augmented Realityでは、仮想オブジェクトを同期するデータ通信は、大きなネットワークトラフィックと高いネットワーク遅延を持つ。
ドリフトにより、座標系アライメントのための連続データ通信のないCARアプリケーションは、仮想オブジェクトの不整合を有する。
さらに、オンライン仮想オブジェクト更新のための同期メッセージは、コラボレーティブデバイスの数が増えるにつれてレイテンシが高くなる。
この問題を解決するために,エッジコンピューティングを用いて,ネットワークトラフィックの少ないデバイス座標系を連続的にマッチングする,eCARと呼ばれるCARフレームワークを実装した。
さらに、エッジサーバのコビジュアビリティグラフを拡張し、局所グラフを同期させることにより、隣接するデバイスにおける仮想オブジェクトの時空間一貫性を維持する。
本研究では,公共データセットと物理的屋内環境において,定量的に質的に評価する。
eCARは、エッジサーバとデバイス間のシステムアライメントを調整するためのデータを、ネットワークトラフィックとレイテンシを少なくする。
さらに、協調的な拡張現実同期アルゴリズムは、仮想オブジェクトを迅速かつ正確にホストし、解決する。
提案システムは,大規模な屋内環境下で複数のデバイスに座標系を連続的に調整し,拡張現実コンテンツを共有する。
本システムを通じて,ユーザは仮想オブジェクトと対話し,近隣のユーザと拡張現実体験を共有する。
We propose a novel edge-assisted multi-user collaborative augmented reality framework in a large indoor environment. In Collaborative Augmented Reality, data communication that synchronizes virtual objects has large network traffic and high network latency. Due to drift, CAR applications without continuous data communication for coordinate system alignment have virtual object inconsistency. In addition, synchronization messages for online virtual object updates have high latency as the number of collaborative devices increases. To solve this problem, we implement the CAR framework, called eCAR, which utilizes edge computing to continuously match the device's coordinate system with less network traffic. Furthermore, we extend the co-visibility graph of the edge server to maintain virtual object spatial-temporal consistency in neighboring devices by synchronizing a local graph. We evaluate the system quantitatively and qualitatively in the public dataset and a physical indoor environment. eCAR communicates data for coordinate system alignment between the edge server and devices with less network traffic and latency. In addition, collaborative augmented reality synchronization algorithms quickly and accurately host and resolve virtual objects. The proposed system continuously aligns coordinate systems to multiple devices in a large indoor environment and shares augmented reality content. Through our system, users interact with virtual objects and share augmented reality experiences with neighboring users. | 翻訳日:2024-05-14 19:44:41 公開日:2024-05-11 |
# Logical: 教師なし異常局所化のための論理的異常合成を目指して
LogicAL: Towards logical anomaly synthesis for unsupervised anomaly localization ( http://arxiv.org/abs/2405.06875v1 ) ライセンス: Link先を確認 | Ying Zhao, | (参考訳) 異常なローカライゼーションは工業生産ライン効率を向上させるための実用的な技術である。
異常は多様体であり、収集が難しいため、既存の教師なしの研究は通常、異常合成法を備えている。
しかし、それらの多くは、基礎となる論理的制約を無視しながら、構造的欠陥合成に偏っている。
このギャップを埋め、異常局所化性能を高めるために、論理的および構造的異常の両方をフォトリアリスティックに生成するエッジ操作に基づく異常合成フレームワーク、LogicALを提案する。
本稿では, 論理的制約を破ることのできる論理的異常生成戦略と, 構造的欠陥合成を補完する構造的異常生成戦略を導入する。
ネットワーク構造にエッジ再構成を導入することにより,異常局所化性能をさらに向上する。
MVTecLOCO, MVTecAD, VisA, MADsimの各データセットは論理的および構造的異常なローカライゼーションにおいて提案されたLogicALの利点を検証する。
Anomaly localization is a practical technology for improving industrial production line efficiency. Due to anomalies are manifold and hard to be collected, existing unsupervised researches are usually equipped with anomaly synthesis methods. However, most of them are biased towards structural defects synthesis while ignoring the underlying logical constraints. To fill the gap and boost anomaly localization performance, we propose an edge manipulation based anomaly synthesis framework, named LogicAL, that produces photo-realistic both logical and structural anomalies. We introduce a logical anomaly generation strategy that is adept at breaking logical constraints and a structural anomaly generation strategy that complements to the structural defects synthesis. We further improve the anomaly localization performance by introducing edge reconstruction into the network structure. Extensive experiments on the challenge MVTecLOCO, MVTecAD, VisA and MADsim datasets verify the advantage of proposed LogicAL on both logical and structural anomaly localization. | 翻訳日:2024-05-14 19:32:15 公開日:2024-05-11 |
# EMCAD : 医用画像セグメンテーションのためのマルチスケール・コンボリューション・アテンション・デコーディング
EMCAD: Efficient Multi-scale Convolutional Attention Decoding for Medical Image Segmentation ( http://arxiv.org/abs/2405.06880v1 ) ライセンス: Link先を確認 | Md Mostafijur Rahman, Mustafa Munir, Radu Marculescu, | (参考訳) 医用画像のセグメンテーション、特に限られた計算資源を持つシナリオにおいて、効率的かつ効果的な復号化機構が不可欠である。
しかしながら、これらの復号化機構は通常計算コストが高い。
この問題に対処するために,性能と計算効率の両方を最適化する新しいマルチスケール・コンボリューション・アテンション・デコーダであるEMCADを導入する。
EMCADは、ユニークなマルチスケールの奥行きの畳み込みブロックを活用し、マルチスケールの畳み込みを通して特徴マップを大幅に強化する。
EMCADはまた、チャネル、空間、グループ化された(大きなカーネル)ゲートアテンション機構も採用しており、これは有能な領域に着目しながら複雑な空間関係を捉えるのに非常に効果的である。
グループと深さの面での畳み込みにより、EMCADは非常に効率的でスケールが良い(例えば、標準エンコーダを使用する際には、1.91Mパラメータと0.381G FLOPが必要である)。
6つの医用画像セグメンテーションタスクに属する12のデータセットを対象とした厳密な評価の結果、EMCADは、それぞれ#Paramsと#FLOPsの79.4%と80.3%の削減で、最先端(SOTA)のパフォーマンスを達成することが明らかとなった。
さらに,異なるエンコーダへのEMCADの適応性とセグメンテーションタスク間の汎用性は,EMCADを将来性のあるツールとして確立し,より効率的かつ正確な医用画像解析へと発展させる。
私たちの実装はhttps://github.com/SLDGroup/EMCADで公開されています。
An efficient and effective decoding mechanism is crucial in medical image segmentation, especially in scenarios with limited computational resources. However, these decoding mechanisms usually come with high computational costs. To address this concern, we introduce EMCAD, a new efficient multi-scale convolutional attention decoder, designed to optimize both performance and computational efficiency. EMCAD leverages a unique multi-scale depth-wise convolution block, significantly enhancing feature maps through multi-scale convolutions. EMCAD also employs channel, spatial, and grouped (large-kernel) gated attention mechanisms, which are highly effective at capturing intricate spatial relationships while focusing on salient regions. By employing group and depth-wise convolution, EMCAD is very efficient and scales well (e.g., only 1.91M parameters and 0.381G FLOPs are needed when using a standard encoder). Our rigorous evaluations across 12 datasets that belong to six medical image segmentation tasks reveal that EMCAD achieves state-of-the-art (SOTA) performance with 79.4% and 80.3% reduction in #Params and #FLOPs, respectively. Moreover, EMCAD's adaptability to different encoders and versatility across segmentation tasks further establish EMCAD as a promising tool, advancing the field towards more efficient and accurate medical image analysis. Our implementation is available at https://github.com/SLDGroup/EMCAD. | 翻訳日:2024-05-14 19:32:15 公開日:2024-05-11 |
# 多層ネットワーク上での動的システムの効率的PAC学習性
Efficient PAC Learnability of Dynamical Systems Over Multilayer Networks ( http://arxiv.org/abs/2405.06884v1 ) ライセンス: Link先を確認 | Zirou Qiu, Abhijin Adiga, Madhav V. Marathe, S. S. Ravi, Daniel J. Rosenkrantz, Richard E. Stearns, Anil Vullikanti, | (参考訳) ネットワーク力学系は、病気や情報の拡散などの現実世界のカスケード現象の形式モデルとして広く用いられている。
従来の研究では、基盤となるネットワークが単一の層を持つ場合、未知の力学系の振る舞いを学習する問題に対処してきた。
本研究では,より現実的で困難なマルチ層ネットワーク上での動的システムの学習可能性について検討する。
まず,学習者が未知のシステムを推論するために,少数の学習例のみを必要とすることを示すための証明可能な保証付き効率的なPAC学習アルゴリズムを提案する。
さらに、モデルの複雑さを測るナタラジャン次元の厳密な解析を行う。
漸近的に、我々のナラジャン次元への有界性は、ほとんどすべての多層グラフに対して厳密である。
本研究から得られた技術と知見は,多層力学系における学習問題の今後の研究の基盤となる。
Networked dynamical systems are widely used as formal models of real-world cascading phenomena, such as the spread of diseases and information. Prior research has addressed the problem of learning the behavior of an unknown dynamical system when the underlying network has a single layer. In this work, we study the learnability of dynamical systems over multilayer networks, which are more realistic and challenging. First, we present an efficient PAC learning algorithm with provable guarantees to show that the learner only requires a small number of training examples to infer an unknown system. We further provide a tight analysis of the Natarajan dimension which measures the model complexity. Asymptotically, our bound on the Nararajan dimension is tight for almost all multilayer graphs. The techniques and insights from our work provide the theoretical foundations for future investigations of learning problems for multilayer dynamical systems. | 翻訳日:2024-05-14 19:32:15 公開日:2024-05-11 |
# Event GDR: イベント中心の生成ドキュメント検索
Event GDR: Event-Centric Generative Document Retrieval ( http://arxiv.org/abs/2405.06886v1 ) ライセンス: Link先を確認 | Yong Guan, Dingxiao Liu, Jinchen Ma, Hao Peng, Xiaozhi Wang, Lei Hou, Ru Li, | (参考訳) 情報検索における新たなパラダイムである生成文書検索は、単一のモデル内でドキュメントと識別子間の接続を構築することを学び、大きな注目を集めている。
しかし,(1)文書表現中に内部コンテンツ相関を無視すること,(2)識別子構築中に明示的な意味構造が欠如していること,の2つの課題がある。
それにもかかわらず、出来事は関係を豊かにし、明確に定義された分類法を持ち、上記の2つの課題に対処するのに役立つ。
そこで我々は,イベント中心の生成文書検索モデルであるEvent GDRを提案する。
具体的には、イベント知識抽出のためのマルチエージェントに基づく交換-then-reflection法を用いる。
文書表現には、文書の包括性と内的内容の相関を保証するために、文書のモデル化にイベントと関係を用いる。
識別子構築では、イベントを適切に定義されたイベント分類にマッピングし、明示的な意味構造を持つ識別子を構築する。
提案手法は,2つのデータセットのベースラインよりも大幅に改善され,今後の研究への洞察も期待できる。
Generative document retrieval, an emerging paradigm in information retrieval, learns to build connections between documents and identifiers within a single model, garnering significant attention. However, there are still two challenges: (1) neglecting inner-content correlation during document representation; (2) lacking explicit semantic structure during identifier construction. Nonetheless, events have enriched relations and well-defined taxonomy, which could facilitate addressing the above two challenges. Inspired by this, we propose Event GDR, an event-centric generative document retrieval model, integrating event knowledge into this task. Specifically, we utilize an exchange-then-reflection method based on multi-agents for event knowledge extraction. For document representation, we employ events and relations to model the document to guarantee the comprehensiveness and inner-content correlation. For identifier construction, we map the events to well-defined event taxonomy to construct the identifiers with explicit semantic structure. Our method achieves significant improvement over the baselines on two datasets, and also hopes to provide insights for future research. | 翻訳日:2024-05-14 19:32:15 公開日:2024-05-11 |
# FineParser:人間中心の行動品質評価のための微粒な時空間行動パーザ
FineParser: A Fine-grained Spatio-temporal Action Parser for Human-centric Action Quality Assessment ( http://arxiv.org/abs/2405.06887v1 ) ライセンス: Link先を確認 | Jinglin Xu, Sibo Yin, Guohao Zhao, Zishuo Wang, Yuxin Peng, | (参考訳) 既存の行動品質評価(AQA)手法は、様々な行動を評価するために、主にビデオレベルで深い表現を学習する。
ビデオにおけるアクションのきめ細かい理解が欠如しているため、信頼性と解釈性が低く、オリンピックのダイビングイベントのような厳格な応用には不十分である。
我々は、アクションのきめ細かい理解には、時間と空間の両方でアクションを知覚し解析する必要があると論じ、これはAQA手法の信頼性と解釈可能性の鍵でもある。
そこで本研究では, 空間的・時空間的アクションパーサであるtextbf{FineParser} を提案する。
フレーム内のターゲットアクション領域に着目し、その微粒なアライメントを時間と空間で活用することにより、アセスメント中の不正な背景の影響を最小限に抑えることで、人中心の行動表現を学習する。
また,FineDiving-HM と呼ばれるファインディビングデータセットに対して,人中心のアクションマスクの詳細なアノテーションを構築する。
FineDiving-HMは多様なアクションプロシージャに関するアノテーションを洗練することにより、現実世界のAQAシステムの開発を促進することができる。
より広範な実験を通じて、ファインParserの有効性を実証し、より詳細なアクション理解のタスクをサポートしながら、最先端の手法より優れていることを示す。
データとコードは \url{https://github.com/PKU-ICST-MIPL/FineParser_CVPR2024} で入手できる。
Existing action quality assessment (AQA) methods mainly learn deep representations at the video level for scoring diverse actions. Due to the lack of a fine-grained understanding of actions in videos, they harshly suffer from low credibility and interpretability, thus insufficient for stringent applications, such as Olympic diving events. We argue that a fine-grained understanding of actions requires the model to perceive and parse actions in both time and space, which is also the key to the credibility and interpretability of the AQA technique. Based on this insight, we propose a new fine-grained spatial-temporal action parser named \textbf{FineParser}. It learns human-centric foreground action representations by focusing on target action regions within each frame and exploiting their fine-grained alignments in time and space to minimize the impact of invalid backgrounds during the assessment. In addition, we construct fine-grained annotations of human-centric foreground action masks for the FineDiving dataset, called \textbf{FineDiving-HM}. With refined annotations on diverse target action procedures, FineDiving-HM can promote the development of real-world AQA systems. Through extensive experiments, we demonstrate the effectiveness of FineParser, which outperforms state-of-the-art methods while supporting more tasks of fine-grained action understanding. Data and code are available at \url{https://github.com/PKU-ICST-MIPL/FineParser_CVPR2024}. | 翻訳日:2024-05-14 19:32:15 公開日:2024-05-11 |
# コヒーレント重ね合わせによる方程式の量子線形系の解法とその応用
The Algorithm for Solving Quantum Linear Systems of Equations With Coherent Superposition and Its Extended Applications ( http://arxiv.org/abs/2405.06888v1 ) ライセンス: Link先を確認 | Qiqing Xia, Qianru Zhu, Huiqin Xie, Li Yang, | (参考訳) 対称暗号を攻撃するための多くの量子アルゴリズムは、量子線型方程式のランク問題を含む。
本稿では、まず、コヒーレントな重ね合わせを持つ方程式の量子線形系を解くための2つの量子アルゴリズムを提案し、それらの特定の量子回路を構築する。
これまでの関連する研究とは異なり、我々の量子アルゴリズムは普遍的である。
具体的には、2つの量子アルゴリズムはランクと一般解の両方を1つの測定で計算できる。
それらの違いは、量子係数行列を含むデータレジスタが他のレジスタと切り離され、データの量子ビットが変化しないかどうかである。
そこで本研究では,2つの量子アルゴリズムを並列Simonアルゴリズム(複数周期),Grover Meets Simonアルゴリズム,Alg-PolyQ2アルゴリズムにサブルーチンとして適用する。
その後、Grover Meets Simonアルゴリズム内の量子分類器と、Alg-PolyQ2アルゴリズム内のテストオラクルを、それぞれの量子回路を含む詳細に構築する。
我々の知る限りでは、そのような具体的な分析はこれまで行われていない。
我々はこれらのアルゴリズムの成功確率を厳密に分析し、提案した量子アルゴリズムによる成功確率が元のアルゴリズムよりも低いことを保証する。
最後に、コヒーレントな重ね合わせを持つ方程式の量子線型系を解くために、CNOTゲートの個数の低い境界について論じ、我々の量子アルゴリズムは、CNOTゲートの個数を最小化するという点で最適に到達する。
さらに,提案アルゴリズムは,イオントラップ量子コンピュータの有効動作時間内に,主に軽量対称暗号に対する攻撃を行うのに適していることを示す。
Many quantum algorithms for attacking symmetric cryptography involve the rank problem of quantum linear equations. In this paper, we first propose two quantum algorithms for solving quantum linear systems of equations with coherent superposition and construct their specific quantum circuits. Unlike previous related works, our quantum algorithms are universal. Specifically, the two quantum algorithms can both compute the rank and general solution by one measurement. The difference between them is whether the data register containing the quantum coefficient matrix can be disentangled with other registers and keep the data qubits unchanged. On this basis, we apply the two quantum algorithms as a subroutine to parallel Simon's algorithm (with multiple periods), Grover Meets Simon algorithm, and Alg-PolyQ2 algorithm, respectively. Afterwards, we construct a quantum classifier within Grover Meets Simon algorithm and the test oracle within Alg-PolyQ2 algorithm in detail, including their respective quantum circuits. To our knowledge, no such specific analysis has been done before. We rigorously analyze the success probability of those algorithms to ensure that the success probability based on the proposed quantum algorithms will not be lower than that of those original algorithms. Finally, we discuss the lower bound of the number of CNOT gates for solving quantum linear systems of equations with coherent superposition, and our quantum algorithms reach the optimum in terms of minimizing the number of CNOT gates. Furthermore, our analysis indicates that the proposed algorithms are mainly suitable for conducting attacks against lightweight symmetric ciphers, within the effective working time of an ion trap quantum computer. | 翻訳日:2024-05-14 19:32:15 公開日:2024-05-11 |
# TacoERE:イベント関係抽出のためのクラスタ認識圧縮
TacoERE: Cluster-aware Compression for Event Relation Extraction ( http://arxiv.org/abs/2405.06890v1 ) ライセンス: Link先を確認 | Yong Guan, Xiaozhi Wang, Lei Hou, Juanzi Li, Jeff Pan, Jiaoyan Chen, Freddy Lecue, | (参考訳) イベント関係抽出(ERE)は自然言語処理における決定的かつ基本的な課題である。
既存の作業は主にドキュメント全体を直接モデリングすることに焦点を当てており、長距離依存や情報の冗長性を効果的に扱えない。
これらの課題に対処するために,イベント関係抽出(TacoERE)の改良を目的としたクラスタ対応圧縮手法を提案する。
具体的には、まず、イベント依存関係をモデル化するためのドキュメントクラスタリングを紹介します。
ドキュメントをクラスタ内とクラスタ間に分割し、クラスタ内はクラスタ内の関係を強化することを目的としており、クラスタ間は任意の距離で関連イベントをモデル化しようとする。
第2に,クラスタの要約を利用して,情報冗長性とイベント距離を緩和するために,クラスタの重要なテキスト内容の簡素化と強調を行う。
我々は,RoBERTa などの事前学習言語モデルと ChatGPT や GPT-4 のような大規模言語モデルの両方において,MAVEN-ERE,EventStoryLine ,HiEve の3つのEREデータセットに対して広範な実験を行った。
実験の結果,TacoEREはEREに有効な方法であることがわかった。
Event relation extraction (ERE) is a critical and fundamental challenge for natural language processing. Existing work mainly focuses on directly modeling the entire document, which cannot effectively handle long-range dependencies and information redundancy. To address these issues, we propose a cluster-aware compression method for improving event relation extraction (TacoERE), which explores a compression-then-extraction paradigm. Specifically, we first introduce document clustering for modeling event dependencies. It splits the document into intra- and inter-clusters, where intra-clusters aim to enhance the relations within the same cluster, while inter-clusters attempt to model the related events at arbitrary distances. Secondly, we utilize cluster summarization to simplify and highlight important text content of clusters for mitigating information redundancy and event distance. We have conducted extensive experiments on both pre-trained language models, such as RoBERTa, and large language models, such as ChatGPT and GPT-4, on three ERE datasets, i.e., MAVEN-ERE, EventStoryLine and HiEve. Experimental results demonstrate that TacoERE is an effective method for ERE. | 翻訳日:2024-05-14 19:32:15 公開日:2024-05-11 |
# ADLDA:データ拡張におけるデータ分散シフトのハームを低減する方法
ADLDA: A Method to Reduce the Harm of Data Distribution Shift in Data Augmentation ( http://arxiv.org/abs/2405.06893v1 ) ライセンス: Link先を確認 | Haonan Wang, | (参考訳) 本研究では,コンピュータビジョンタスクにおけるデータ拡張プロセスによるデータ分散シフトの負の影響を軽減することを目的とした,新しいデータ拡張手法であるADLDAを紹介する。
ADLDAは、拡張データを別々のサブドメインに分割し、ドメインラベルとドメイン適応技術を組み合わせてモデルの特徴空間におけるデータの表現を最適化する。
実験により、ADLDAは複数のデータセット、特に複雑な特徴抽出層を持つニューラルネットワークアーキテクチャにおいて、モデル性能を著しく向上することが示された。
さらに、ADLDAは、重要な特徴を特定して認識する能力を改善し、オブジェクト認識や画像分割タスクにおけるポテンシャルを示す。
本稿では,ディープラーニングモデルにおけるロバスト性と精度の向上を支援するコンピュータビジョン分野における効果的なデータ拡張正則化手法を提案する。
This study introduces a novel data augmentation technique, ADLDA, aimed at mitigating the negative impact of data distribution shifts caused by the data augmentation process in computer vision task. ADLDA partitions augmented data into distinct subdomains and incorporates domain labels, combined with domain adaptation techniques, to optimize data representation in the model's feature space. Experimental results demonstrate that ADLDA significantly enhances model performance across multiple datasets, particularly in neural network architectures with complex feature extraction layers. Furthermore, ADLDA improves the model's ability to locate and recognize key features, showcasing potential in object recognition and image segmentation tasks. This paper's contribution provides an effective data augmentation regularization method for the field of computer vision aiding in the enhancement of robustness and accuracy in deep learning models. | 翻訳日:2024-05-14 19:32:15 公開日:2024-05-11 |
# 非古典的量子状態発生のための光サンプリング型超伝導-ナノストリップ光子分解検出器
Optically-Sampled Superconducting-Nanostrip Photon-Number Resolving Detector for Non-Classical Quantum State Generation ( http://arxiv.org/abs/2405.06901v1 ) ライセンス: Link先を確認 | Mamoru Endo, Kazuma Takahashi, Takefumi Nomura, Tatsuki Sonoyama, Masahiro Yabuno, Shigehito Miki, Hirotaka Terai, Takahiro Kashiwazaki, Asuka Inoue, Takeshi Umeki, Rajveer Nehra, Kan Takase, Warit Asavanant, Akira Furusawa, | (参考訳) 光子数分解検出器(PNRD)は究極の光学センサである。
超伝導ナノストリップ光子検出器(SNSPD)は、従来On-OFF検出器として知られていたが、最近、多重化せずに光子番号を解消できることが発見された。
この発見により、それらは真のPNRDとなる。
しかし、その実用性は、ナノ秒以下の時間フレーム内の低信号-雑音比の小さな信号差を正確に検出する必要性によって制限されている。
両出力のマッハツェンダー変調器 (DO-MZM) と超短パルスレーザーを用いた光サンプリングにより, この課題を克服する。
DO-MZMのバイアス電圧をほぼ平衡に調整することにより、ピコ秒オーダーの信号差を感度よく検出し、時間分解能1.9 psを実現し、リアルタイム光子数分解を容易にする。
我々は、この手法を様々な非古典的量子状態の生成に適用し、光子数分解能によってその非古典性を高めた。
この進歩は、様々な量子光学分野におけるSNSPD型PNRDの原理検証から実践的応用への大きな変化である。
Photon number-resolving detectors (PNRDs) are the ultimate optical sensors. Superconducting-nanostrip photon detectors (SNSPDs), traditionally known as ON-OFF detectors, have recently been found to have photon number resolving capability without multiplexing. This discovery positions them to become true PNRDs. However, their practical use is limited by the need to precisely detect tiny signal differences with low signal-to-noise ratios within sub-nanosecond time frames. We overcome this challenge using optical sampling with a dual-output Mach Zehnder modulator (DO-MZM) and ultra-short pulsed laser. By adjusting the DO-MZM's bias voltage to nearly balance the outputs, this method enables sensitive detection of picosecond-order signal differences, achieving a temporal resolution of 1.9 ps and facilitating real-time photon number resolution. We applied this method to produce various non-classical quantum states, enhancing their non-classicality through photon number resolution. This advancement marks a significant shift from principle verification to practical application for SNSPD-type PNRDs in diverse quantum optics fields. | 翻訳日:2024-05-14 19:32:15 公開日:2024-05-11 |
# 緩やかな非定常過程からの因果推論
Causal Inference from Slowly Varying Nonstationary Processes ( http://arxiv.org/abs/2405.06902v1 ) ライセンス: Link先を確認 | Kang Du, Yu Xiang, | (参考訳) 制限構造因果モデル(SCM)フレームワークによる観測データからの因果推論は、非ガウス性や非線形性などのデータ生成機構による原因と効果の非対称性に大きく依存する。
この手法は定常時系列に適応できるが、非定常時系列から因果関係を推定することは難しい課題である。
本研究では,時間変化フィルタと定常雑音による制約付きSCMを新たに提案し,非定常性から非定常性への非対称性を利用して,二変量およびネットワーク設定の因果同定を行う。
本稿では,2変量進化スペクトルの強力な推定値を利用して,ゆっくりと変化するプロセスに効率的な手順を提案する。
提案手法の有効性を示すために,高次および非滑らかなフィルタを含む各種合成および実データセットの評価を行った。
Causal inference from observational data following the restricted structural causal models (SCM) framework hinges largely on the asymmetry between cause and effect from the data generating mechanisms, such as non-Gaussianity or non-linearity. This methodology can be adapted to stationary time series, yet inferring causal relationships from nonstationary time series remains a challenging task. In this work, we propose a new class of restricted SCM, via a time-varying filter and stationary noise, and exploit the asymmetry from nonstationarity for causal identification in both bivariate and network settings. We propose efficient procedures by leveraging powerful estimates of the bivariate evolutionary spectra for slowly varying processes. Various synthetic and real datasets that involve high-order and non-smooth filters are evaluated to demonstrate the effectiveness of our proposed methodology. | 翻訳日:2024-05-14 19:32:15 公開日:2024-05-11 |
# UniGarmentManip: 複雑な視覚対応によるカテゴリーレベルガーメント操作のための統一フレームワーク
UniGarmentManip: A Unified Framework for Category-Level Garment Manipulation via Dense Visual Correspondence ( http://arxiv.org/abs/2405.06903v1 ) ライセンス: Link先を確認 | Ruihai Wu, Haoran Lu, Yiyan Wang, Yubo Wang, Hao Dong, | (参考訳) 衣服の操作(例えば、折りたたみ、折りたたみ、吊り下げ)は、将来のロボットにとってホームアシストの作業には不可欠であるが、衣服の構成、ジオメトリー、変形の多様性により非常に困難である。
類似した形状の衣服を特定のタスクで操作することはできたが、以前の作品では、主に異なるタスクのための異なるポリシーを設計し、多様なジオメトリーを持つ衣服に一般化することができず、人間に注釈を付けたデータに大きく依存することが多い。
本稿では,あるカテゴリーの衣服が類似した構造を持つという特性を活用し,また,カテゴリーレベルでの衣服間のトポロジカルな(ポイントレベルの)視覚的対応を,自己監督的な方法で異なる変形で学習する。
トポロジカル対応は、機能対応に容易に適応することができ、様々な下流タスクの操作ポリシーを1つまたは数個のデモでガイドすることができる。
提案手法の有効性を実証するため, 多様なシナリオにおいて, 3つの異なるカテゴリーの衣服に対して, 1つまたは2つのアームを用いて, 1つ以上のステップを踏んで, 平坦な衣服や乱雑な衣服を装着する実験を行った。
プロジェクトページ: https://warshallrho.github.io/unigarmentmanip.com
Garment manipulation (e.g., unfolding, folding and hanging clothes) is essential for future robots to accomplish home-assistant tasks, while highly challenging due to the diversity of garment configurations, geometries and deformations. Although able to manipulate similar shaped garments in a certain task, previous works mostly have to design different policies for different tasks, could not generalize to garments with diverse geometries, and often rely heavily on human-annotated data. In this paper, we leverage the property that, garments in a certain category have similar structures, and then learn the topological dense (point-level) visual correspondence among garments in the category level with different deformations in the self-supervised manner. The topological correspondence can be easily adapted to the functional correspondence to guide the manipulation policies for various downstream tasks, within only one or few-shot demonstrations. Experiments over garments in 3 different categories on 3 representative tasks in diverse scenarios, using one or two arms, taking one or more steps, inputting flat or messy garments, demonstrate the effectiveness of our proposed method. Project page: https://warshallrho.github.io/unigarmentmanip. | 翻訳日:2024-05-14 19:32:15 公開日:2024-05-11 |
# 最適粒度原理に基づくクラスタリング用グラニュラーボールの生成
Generation of Granular-Balls for Clustering Based on the Principle of Justifiable Granularity ( http://arxiv.org/abs/2405.06904v1 ) ライセンス: Link先を確認 | Zhen Zhang, Zihang Jia, Witold Pedrycz, | (参考訳) 効率的で堅牢なデータクラスタリングは、データ分析の分野で依然として難しい課題である。
最近の取り組みでは、この課題に対処するために、グラニュラーボール(GB)コンピューティングとクラスタリングアルゴリズムの統合を検討し、有望な結果を得た。
しかし、GBを生成する既存の方法は、GBの品質を測定し、しきい値に基づく、あるいは欲張りの戦略を採用するために単一の指標に依存することが多いため、基礎となるデータ分布を正確に捉えないGBに繋がる可能性がある。
これらの制約に対処するため,本論文では新しいGB生成手法を提案する。
この手法の独創性は、クラスタリングタスクにおけるGBの品質を測定するために、正当化可能な粒度の原理を活用することである。
正確には、GBのカバレッジと特異性を定義し、GBの品質を評価するための総合的な尺度を導入する。
本手法は,2分木伐採戦略と異常検出手法を併用し,各GBのサブGBの最適な組み合わせと異常GBの識別を行う。
従来のGB生成手法と比較して,データ分布の整合性を確保しつつ,生成したGBの全体的な品質を最大化し,生成したGBの合理性を高める。
合成および公開データセットから得られた実験結果は,提案したGB生成手法の有効性を裏付けるものであり,クラスタリング精度の向上と正規化された相互情報を示している。
Efficient and robust data clustering remains a challenging task in the field of data analysis. Recent efforts have explored the integration of granular-ball (GB) computing with clustering algorithms to address this challenge, yielding promising results. However, existing methods for generating GBs often rely on single indicators to measure GB quality and employ threshold-based or greedy strategies, potentially leading to GBs that do not accurately capture the underlying data distribution. To address these limitations, this article introduces a novel GB generation method. The originality of this method lies in leveraging the principle of justifiable granularity to measure the quality of a GB for clustering tasks. To be precise, we define the coverage and specificity of a GB and introduce a comprehensive measure for assessing GB quality. Utilizing this quality measure, the method incorporates a binary tree pruning-based strategy and an anomaly detection method to determine the best combination of sub-GBs for each GB and identify abnormal GBs, respectively. Compared to previous GB generation methods, the new method maximizes the overall quality of generated GBs while ensuring alignment with the data distribution, thereby enhancing the rationality of the generated GBs. Experimental results obtained from both synthetic and publicly available datasets underscore the effectiveness of the proposed GB generation method, showcasing improvements in clustering accuracy and normalized mutual information. | 翻訳日:2024-05-14 19:32:15 公開日:2024-05-11 |
# 図書館学習による書誌作成における構造発見
Finding structure in logographic writing with library learning ( http://arxiv.org/abs/2405.06906v1 ) ライセンス: Link先を確認 | Guangyuan Jiang, Matthias Hofer, Jiayuan Mao, Lionel Wong, Joshua B. Tenenbaum, Roger P. Levy, | (参考訳) ビルディングブロックの比較的小さな在庫を再利用して、ますます複雑な構造物のはるかに大きな在庫を作り出す。
本稿では,言語における組合せ性は,記号システムにおける表現効率に対する人間の帰納的バイアスを反映するという考えを考察する。
書記システムにおける構造を発見するための計算フレームワークを開発する。
現状のライブラリ学習とプログラム合成技術に基づいて構築された我々の計算フレームワークは、中国語書記システムにおける既知の言語構造を発見し、表現効率のプレッシャーによる単純化に向けてどのように進化していくかを明らかにする。
本稿では,学習した抽象概念と圧縮を活かした図書館学習アプローチが,人間の認識における組合せ構造の形成を基盤とする基本的な計算原理を明らかにする上で有効であることを示すとともに,効率的な通信システムの進化に関するより広範な知見を提供する。
One hallmark of human language is its combinatoriality -- reusing a relatively small inventory of building blocks to create a far larger inventory of increasingly complex structures. In this paper, we explore the idea that combinatoriality in language reflects a human inductive bias toward representational efficiency in symbol systems. We develop a computational framework for discovering structure in a writing system. Built on top of state-of-the-art library learning and program synthesis techniques, our computational framework discovers known linguistic structures in the Chinese writing system and reveals how the system evolves towards simplification under pressures for representational efficiency. We demonstrate how a library learning approach, utilizing learned abstractions and compression, may help reveal the fundamental computational principles that underlie the creation of combinatorial structures in human cognition, and offer broader insights into the evolution of efficient communication systems. | 翻訳日:2024-05-14 19:32:15 公開日:2024-05-11 |
# CoRE: LLMによる自然言語プログラミング,擬似コードプログラミング,AIエージェントのフロープログラミングの解釈
CoRE: LLM as Interpreter for Natural Language Programming, Pseudo-Code Programming, and Flow Programming of AI Agents ( http://arxiv.org/abs/2405.06907v1 ) ライセンス: Link先を確認 | Shuyuan Xu, Zelong Li, Kai Mei, Yongfeng Zhang, | (参考訳) 当初から、プログラミング言語はより読みやすく、プログラマの障壁も低くなっている。
この傾向に従って、自然言語は優れた柔軟性とユーザビリティを提供し、プログラミングの民主主義に寄与する、有望なタイプのプログラミング言語になり得る。
しかし、自然言語の固有のあいまいさ、曖昧さ、冗長さは、プログラムロジックを正確に理解し、自然言語で書かれた命令を実行することができるインタプリタを開発する上で、重大な課題となっている。
幸いなことに、Large Language Models (LLMs) の最近の進歩は、複雑な自然言語の解釈に顕著な習熟性を示している。
そこで我々は,LLMをインタプリタとして用い,自然言語命令の解釈と実行を行う,コード表現・実行(CoRE)のための新しいシステムを開発した。
提案システムは自然言語プログラミング,擬似コードプログラミング,フロープログラミングを同一表現で統一し,LLMはエージェントプログラムの解釈と実行を行うインタプリタとして機能する。
本稿では,自然言語命令を論理的に構造化するプログラミング構文を定義することから始める。
実行中に、冗長性を最小化するために外部メモリを組み込む。
さらに、設計したインタプリタに外部ツールを起動する機能を備え、特殊なドメインにおけるLLMの制限やリアルタイム情報へのアクセス時の補償を行う。
この作業はhttps://github.com/agiresearch/CoRE.comで公開されている。
Since their inception, programming languages have trended towards greater readability and lower barriers for programmers. Following this trend, natural language can be a promising type of programming language that provides great flexibility and usability and helps towards the democracy of programming. However, the inherent vagueness, ambiguity, and verbosity of natural language pose significant challenges in developing an interpreter that can accurately understand the programming logic and execute instructions written in natural language. Fortunately, recent advancements in Large Language Models (LLMs) have demonstrated remarkable proficiency in interpreting complex natural language. Inspired by this, we develop a novel system for Code Representation and Execution (CoRE), which employs LLM as interpreter to interpret and execute natural language instructions. The proposed system unifies natural language programming, pseudo-code programming, and flow programming under the same representation for constructing language agents, while LLM serves as the interpreter to interpret and execute the agent programs. In this paper, we begin with defining the programming syntax that structures natural language instructions logically. During the execution, we incorporate external memory to minimize redundancy. Furthermore, we equip the designed interpreter with the capability to invoke external tools, compensating for the limitations of LLM in specialized domains or when accessing real-time information. This work is open-source at https://github.com/agiresearch/CoRE. | 翻訳日:2024-05-14 19:32:15 公開日:2024-05-11 |
# 強化学習の公正性に関する調査
Fairness in Reinforcement Learning: A Survey ( http://arxiv.org/abs/2405.06909v1 ) ライセンス: Link先を確認 | Anka Reuel, Devin Ma, | (参考訳) 機械学習における公平性の理解は著しく進歩しているが、強化学習(RL)における公正性の理解はいまだに始まったばかりである。
しかし、現実のRL対応システム(例えば自動運転車)は、エージェントが長時間にわたって動的環境で動作している場合、はるかに複雑である。
これらのシステムの責任ある開発と展開を保証するため、我々はRLの公平さをよりよく理解する必要がある。
本稿では,RLにおけるフェアネスのフロンティアの最新のスナップショットを提供するために,文献を調査する。
まず、RLにおいてフェアネスの考慮が生じるかのレビューから始め、これまで実施されてきたRLにおけるフェアネスの様々な定義について議論する。
単一およびマルチエージェントRLシステムでフェアネスを実装するために研究者が用いた方法論を引き続き強調し、フェアRLが研究されている異なるアプリケーションドメインを示す。
最後に,RLHFの文脈における公正さの理解など,現実のシステムにおいて公正なRLを真に運用するためには,今後の課題に対処する必要がある文献のギャップについて批判的に検討する。
While our understanding of fairness in machine learning has significantly progressed, our understanding of fairness in reinforcement learning (RL) remains nascent. Most of the attention has been on fairness in one-shot classification tasks; however, real-world, RL-enabled systems (e.g., autonomous vehicles) are much more complicated in that agents operate in dynamic environments over a long period of time. To ensure the responsible development and deployment of these systems, we must better understand fairness in RL. In this paper, we survey the literature to provide the most up-to-date snapshot of the frontiers of fairness in RL. We start by reviewing where fairness considerations can arise in RL, then discuss the various definitions of fairness in RL that have been put forth thus far. We continue to highlight the methodologies researchers used to implement fairness in single- and multi-agent RL systems before showcasing the distinct application domains that fair RL has been investigated in. Finally, we critically examine gaps in the literature, such as understanding fairness in the context of RLHF, that still need to be addressed in future work to truly operationalize fair RL in real-world systems. | 翻訳日:2024-05-14 19:32:15 公開日:2024-05-11 |
# 生成的フロー誘導型ニューラルアーキテクチャ探索:ウェーブレットニューラル演算子における最適アーキテクチャの発見を目指して
Generative flow induced neural architecture search: Towards discovering optimal architecture in wavelet neural operator ( http://arxiv.org/abs/2405.06910v1 ) ライセンス: Link先を確認 | Hartej Soin, Tapas Tripura, Souvik Chakraborty, | (参考訳) 生成フロー誘導型ニューラルアーキテクチャ探索アルゴリズムを提案する。
提案手法は、単純なフィードフォワードニューラルネットワークを用いて確率的ポリシーを学習し、生成された状態が端末状態からの報酬に比例するようにアーキテクチャハイパーパラメータのシーケンスを生成する。
本稿では,ウェーブレットベースやウェーブレット積分ブロックのアクティベーション演算子などのハイパーパラメータ列を生成するポリシーを学習するウェーブレットニューラル演算子(WNO)に対する探索アルゴリズムの有効性を示す。
生成されたウェーブレットベースとアクティベーションシーケンスの軌跡をフローとしてキャストする一方、この方針は、軌跡内の各状態間のフロー違反を最小化し、終端状態からの報酬を最大化する。
端末状態では、検索をガイドするために同時にWNOを訓練する。
本稿では,評価データセットにおけるWNO損失の負の指数を報酬関数として用いることを提案する。
グリッド探索に基づくニューラルアーキテクチャ生成アルゴリズムは,各組み合わせを予測しながら,端末状態からの正の報酬に基づいて最も確率の高いシーケンスを生成し,探索時間を短縮する。
報酬を得るには完全なエピソジック・トレーニングが必要である強化学習方式と比較して,提案アルゴリズムはハイパーパラメータ・トラジェクトリを逐次生成する。
流体力学を指向した4つの問題を通じて、学習したポリシがニューラル演算子の最も優れた性能を持つアーキテクチャをサンプリングし、バニラウェーブレットニューラル演算子の性能を向上させることができることを示す。
We propose a generative flow-induced neural architecture search algorithm. The proposed approach devices simple feed-forward neural networks to learn stochastic policies to generate sequences of architecture hyperparameters such that the generated states are in proportion with the reward from the terminal state. We demonstrate the efficacy of the proposed search algorithm on the wavelet neural operator (WNO), where we learn a policy to generate a sequence of hyperparameters like wavelet basis and activation operators for wavelet integral blocks. While the trajectory of the generated wavelet basis and activation sequence is cast as flow, the policy is learned by minimizing the flow violation between each state in the trajectory and maximizing the reward from the terminal state. In the terminal state, we train WNO simultaneously to guide the search. We propose to use the exponent of the negative of the WNO loss on the validation dataset as the reward function. While the grid search-based neural architecture generation algorithms foresee every combination, the proposed framework generates the most probable sequence based on the positive reward from the terminal state, thereby reducing exploration time. Compared to reinforcement learning schemes, where complete episodic training is required to get the reward, the proposed algorithm generates the hyperparameter trajectory sequentially. Through four fluid mechanics-oriented problems, we illustrate that the learned policies can sample the best-performing architecture of the neural operator, thereby improving the performance of the vanilla wavelet neural operator. | 翻訳日:2024-05-14 19:22:14 公開日:2024-05-11 |
# 実時間物体検出モデルのレプリケーション研究とベンチマーク
Replication Study and Benchmarking of Real-Time Object Detection Models ( http://arxiv.org/abs/2405.06911v1 ) ライセンス: Link先を確認 | Pierre-Luc Asselin, Vincent Coulombe, William Guimont-Martin, William Larrivée-Hardy, | (参考訳) 本研究では、最先端のリアルタイムオブジェクト検出モデルの再現性とベンチマークについて検討する。
オブジェクト検出モデルは、推論時間が最重要となるロボット工学のような現実世界の文脈でよく使用されるため、単にモデルの精度を測るだけでは比較できない。
そこで我々は,複数のグラフィクスカード上での物体検出モデルの精度と推論速度を多種多様に比較した。
この大規模なベンチマークの試みに加えて、MS COCO 2017データセット(DETR, RTMDet, ViTDet, YOLOv7)でPyTorchをスクラッチから再現する。
さらに,MMDetectionの機能に基づく統合トレーニングと評価パイプラインを提案し,モデルの比較を改良する。
我々のDETRとViTDetの実装は、元の論文で宣言されたものと同等の精度や性能を達成できなかった。
一方、RTMDetとYOLOv7はそのような性能にマッチする。
研究論文は一般に再現性のために欠落している。
MMDetection事前訓練モデルでは、限られた計算資源(より大きく、より正確なモデル)で速度性能が大幅に低下する。
さらに、結果は精度とスピードの間に強いトレードオフを示し、特にRTMDetやYOLOxモデルのようなアンカーフリーモデルが優勢である。
使用されるコードは、この論文であり、すべての実験は、https://github.com/Don767/segdet_mlcr2024のリポジトリで利用可能である。
This work examines the reproducibility and benchmarking of state-of-the-art real-time object detection models. As object detection models are often used in real-world contexts, such as robotics, where inference time is paramount, simply measuring models' accuracy is not enough to compare them. We thus compare a large variety of object detection models' accuracy and inference speed on multiple graphics cards. In addition to this large benchmarking attempt, we also reproduce the following models from scratch using PyTorch on the MS COCO 2017 dataset: DETR, RTMDet, ViTDet and YOLOv7. More importantly, we propose a unified training and evaluation pipeline, based on MMDetection's features, to better compare models. Our implementation of DETR and ViTDet could not achieve accuracy or speed performances comparable to what is declared in the original papers. On the other hand, reproduced RTMDet and YOLOv7 could match such performances. Studied papers are also found to be generally lacking for reproducibility purposes. As for MMDetection pretrained models, speed performances are severely reduced with limited computing resources (larger, more accurate models even more so). Moreover, results exhibit a strong trade-off between accuracy and speed, prevailed by anchor-free models - notably RTMDet or YOLOx models. The code used is this paper and all the experiments is available in the repository at https://github.com/Don767/segdet_mlcr2024. | 翻訳日:2024-05-14 19:22:14 公開日:2024-05-11 |
# 拡散モデルにおけるカスタマイズ概念の非畳み込み生成
Non-confusing Generation of Customized Concepts in Diffusion Models ( http://arxiv.org/abs/2405.06914v1 ) ライセンス: Link先を確認 | Wang Lin, Jingyuan Chen, Jiaxin Shi, Yichen Zhu, Chen Liang, Junzhong Miao, Tao Jin, Zhou Zhao, Fei Wu, Shuicheng Yan, Hanwang Zhang, | (参考訳) テキスト誘導拡散モデル(TGDM)を用いた合成概念生成における概念間視覚的混乱の一般的な課題に取り組む。
ユーザが提供する概念の視覚的な例が不足しているため、カスタマイズされた概念の生成において、さらに顕著になる。
TGDMの成功につながる2つの主要な段階を再考することで、
1)視覚的意味論を符号化するテキストエンコーダのためのコントラスト画像言語事前学習(CLIP)
2) テキストの埋め込みをピクセルにデコードするTGDMのトレーニング -- 既存のカスタマイズされた生成メソッドは第2ステージの微調整にのみフォーカスし、第1ステージを見下ろしている点を指摘する。
この目的のために,CLIFと呼ばれる単純かつ効果的な画像言語微調整法を提案する。
具体的には、いくつかのカスタマイズされた概念のサンプルから、概念と他の概念の過剰な視覚領域を対比することにより、CLIPを微調整することで、概念の非統合的なテキスト埋め込みを得る。
実験結果から,CLIFの多角化概念生成の混乱防止効果が示された。
We tackle the common challenge of inter-concept visual confusion in compositional concept generation using text-guided diffusion models (TGDMs). It becomes even more pronounced in the generation of customized concepts, due to the scarcity of user-provided concept visual examples. By revisiting the two major stages leading to the success of TGDMs -- 1) contrastive image-language pre-training (CLIP) for text encoder that encodes visual semantics, and 2) training TGDM that decodes the textual embeddings into pixels -- we point that existing customized generation methods only focus on fine-tuning the second stage while overlooking the first one. To this end, we propose a simple yet effective solution called CLIF: contrastive image-language fine-tuning. Specifically, given a few samples of customized concepts, we obtain non-confusing textual embeddings of a concept by fine-tuning CLIP via contrasting a concept and the over-segmented visual regions of other concepts. Experimental results demonstrate the effectiveness of CLIF in preventing the confusion of multi-customized concept generation. | 翻訳日:2024-05-14 19:22:14 公開日:2024-05-11 |
# クリエイティビティの自動化
Automating Creativity ( http://arxiv.org/abs/2405.06915v1 ) ライセンス: Link先を確認 | Ming-Hui Huang, Roland T. Rust, | (参考訳) 生成AI(GenAI)は、コンテンツを生成する能力から創造性への期待を喚起しているが、これまでのところ、人間の意図に従って既存のデータを使ってアウトプットを生成するためにトレーニングされているため、その創造性はやや失望している。
本研究の目的は,AIを創造的から創造的へと進化させるために必要なものを探ることである。
我々は、強化学習アプローチと、計算創造性の様々な研究ストリームに基づいて、GenAIの創造能力を開発するために、3つの応答-応答-逆エンジニアリングフレームワークを開発する。
このフレームワークは3つのコンポーネントから構成される。
1 客観的、個人的又は社会的に新規な差別的プロンプトを発達させることにより、期待される創造性の促進モデル
2 漸進的に、破壊的に、急進的に革新的な、驚くべき出力を生み出すことにより、観察された創造性に対する応答モデル
3)AI、クリエータ/マネージャ、そして/または顧客からのフィードバックを取り入れることで、創造性を改善するための報酬モデル。
このフレームワークは、GenAIをさまざまなレベルの創造性に戦略的に適用することを可能にする。
Generative AI (GenAI) has spurred the expectation of being creative, due to its ability to generate content, yet so far, its creativity has somewhat disappointed, because it is trained using existing data following human intentions to generate outputs. The purpose of this paper is to explore what is required to evolve AI from generative to creative. Based on a reinforcement learning approach and building upon various research streams of computational creativity, we develop a triple prompt-response-reward engineering framework to develop the creative capability of GenAI. This framework consists of three components: 1) a prompt model for expected creativity by developing discriminative prompts that are objectively, individually, or socially novel, 2) a response model for observed creativity by generating surprising outputs that are incrementally, disruptively, or radically innovative, and 3) a reward model for improving creativity over time by incorporating feedback from the AI, the creator/manager, and/or the customers. This framework enables the application of GenAI for various levels of creativity strategically. | 翻訳日:2024-05-14 19:22:14 公開日:2024-05-11 |
# HyperGraph Learningは、ソースのない非教師なしのドメイン適応と出会う
High-order Neighborhoods Know More: HyperGraph Learning Meets Source-free Unsupervised Domain Adaptation ( http://arxiv.org/abs/2405.06916v1 ) ライセンス: Link先を確認 | Jinkun Jiang, Qingxuan Lv, Yuezun Li, Yong Du, Sheng Chen, Hui Yu, Junyu Dong, | (参考訳) Source-free Unsupervised Domain Adaptation (SFDA)は、未学習のソースモデルと未学習のターゲットサンプルにのみアクセスすることで、ターゲットサンプルを分類することを目的としている。
ソースデータがないため、ソースドメインからターゲットドメインへの知識の転送は困難である。
既存の手法は、通常、対象サンプル間のペアワイズ関係を利用して、これらのサンプルを意味的特徴に基づいてクラスタリングすることで、それらの相関関係を見つけようとする。
これらの方法の欠点は以下のとおりである。
1) 対関係は,対象領域に埋め込まれた構造情報の探索を妨げるために,さらに2つのサンプルの根底にある相関関係を明らかにすることに限定される。
2) クラスタリングプロセスは,ドメインシフトの重要な効果,すなわちソースとターゲットドメインの分布差を見越しながら,意味的特徴にのみ依存する。
これらの問題に対処するために、高次近傍関係を利用してドメインシフト効果を明示的に考慮した新しいSFDA法を提案する。
具体的には、SFDAをハイパーグラフ学習問題として定式化し、ハイパーエッジを構築し、複数のサンプル間の局所的なグループとコンテキスト情報を探索する。
さらに、構築したハイパーグラフに自己ループ戦略を統合し、各サンプルの領域不確実性をエレガントに導入する。
これらのサンプルをハイパーエッジに基づいてクラスタリングすることで、セマンティックな特徴とドメインシフトの影響が考慮される。
次に、全てのサンプルに対してソフトアテンションレベルでモデルをチューニングするための適応的関係に基づく目的について述べる。
大規模な実験はOffice-31、Office-Home、VisDA、PointDA-10のデータセットで行われている。
その結果,本手法が最先端技術よりも優れていることが示された。
Source-free Unsupervised Domain Adaptation (SFDA) aims to classify target samples by only accessing a pre-trained source model and unlabelled target samples. Since no source data is available, transferring the knowledge from the source domain to the target domain is challenging. Existing methods normally exploit the pair-wise relation among target samples and attempt to discover their correlations by clustering these samples based on semantic features. The drawback of these methods includes: 1) the pair-wise relation is limited to exposing the underlying correlations of two more samples, hindering the exploration of the structural information embedded in the target domain; 2) the clustering process only relies on the semantic feature, while overlooking the critical effect of domain shift, i.e., the distribution differences between the source and target domains. To address these issues, we propose a new SFDA method that exploits the high-order neighborhood relation and explicitly takes the domain shift effect into account. Specifically, we formulate the SFDA as a Hypergraph learning problem and construct hyperedges to explore the local group and context information among multiple samples. Moreover, we integrate a self-loop strategy into the constructed hypergraph to elegantly introduce the domain uncertainty of each sample. By clustering these samples based on hyperedges, both the semantic feature and domain shift effects are considered. We then describe an adaptive relation-based objective to tune the model with soft attention levels for all samples. Extensive experiments are conducted on Office-31, Office-Home, VisDA, and PointDA-10 datasets. The results demonstrate the superiority of our method over state-of-the-art counterparts. | 翻訳日:2024-05-14 19:22:14 公開日:2024-05-11 |
# 人中心型グラフニューラルネットワーク記述のための設計要件
Design Requirements for Human-Centered Graph Neural Network Explanations ( http://arxiv.org/abs/2405.06917v1 ) ライセンス: Link先を確認 | Pantea Habibi, Peyman Baghershahi, Sourav Medya, Debaleena Chattopadhyay, | (参考訳) グラフニューラルネットワーク(GNN)は、強力なグラフベースの機械学習モデルであり、例えば、ソーシャルメディア、輸送、薬物発見など、さまざまな領域で人気がある。
しかし、複雑なデータ表現のため、GNNは人間の知的な予測の説明を容易にできないため、信頼を減らしたり、AIの専門家と非技術ドメインの専門家とのコラボレーションの機会を減らしたりすることができる。
本稿ではまず,ドメインエキスパートにGNNの説明を提供するための2つの論文について論じるとともに,人間中心のGNN説明のための一連の設計要件を確立する。
最後に、提案された要求のいくつかを実証する2つの例を挙げる。
Graph neural networks (GNNs) are powerful graph-based machine-learning models that are popular in various domains, e.g., social media, transportation, and drug discovery. However, owing to complex data representations, GNNs do not easily allow for human-intelligible explanations of their predictions, which can decrease trust in them as well as deter any collaboration opportunities between the AI expert and non-technical, domain expert. Here, we first discuss the two papers that aim to provide GNN explanations to domain experts in an accessible manner and then establish a set of design requirements for human-centered GNN explanations. Finally, we offer two example prototypes to demonstrate some of those proposed requirements. | 翻訳日:2024-05-14 19:22:14 公開日:2024-05-11 |
# 超解像とイベント
Super-Resolving Blurry Images with Events ( http://arxiv.org/abs/2405.06918v1 ) ライセンス: Link先を確認 | Chi Zhang, Mingyuan Lin, Xiang Zhang, Chenxu Jiang, Lei Yu, | (参考訳) 動きブル画像からの超解像は、動きぼけと低空間分解能の複合効果により大きな課題となる。
この課題に対処するために,イベントベースのBlurry Super Resolution Network (EBSR-Net)を導入し,イベントの高時間分解能を利用して動きのぼかしを緩和し,高分解能画像予測を改善する。
具体的には、イベントに固有の動きやテクスチャ情報をフルにキャプチャするマルチスケールのセンターサラウンドイベント表現を提案する。
さらに、ぼやけた画像とイベントの相補性をフル活用するために、対称なクロスモーダルアテンションモジュールを設計する。
さらに,複数の高密度Swin変換器ブロックから構成されるモード間残基を導入し,複数のSwin変換器層と残差接続を組み込んで,グローバルなコンテキストを抽出し,ブロック間特徴集約を容易にする。
実験の結果,本手法は最先端の手法と良好に比較でき,優れた性能が得られることがわかった。
Super-resolution from motion-blurred images poses a significant challenge due to the combined effects of motion blur and low spatial resolution. To address this challenge, this paper introduces an Event-based Blurry Super Resolution Network (EBSR-Net), which leverages the high temporal resolution of events to mitigate motion blur and improve high-resolution image prediction. Specifically, we propose a multi-scale center-surround event representation to fully capture motion and texture information inherent in events. Additionally, we design a symmetric cross-modal attention module to fully exploit the complementarity between blurry images and events. Furthermore, we introduce an intermodal residual group composed of several residual dense Swin Transformer blocks, each incorporating multiple Swin Transformer layers and a residual connection, to extract global context and facilitate inter-block feature aggregation. Extensive experiments show that our method compares favorably against state-of-the-art approaches and achieves remarkable performance. | 翻訳日:2024-05-14 19:22:14 公開日:2024-05-11 |
# テーマ分析の自動化 - LLMが議論トピックをどう分析するか
Automating Thematic Analysis: How LLMs Analyse Controversial Topics ( http://arxiv.org/abs/2405.06919v1 ) ライセンス: Link先を確認 | Awais Hameed Khan, Hiruni Kegalle, Rhea D'Silva, Ned Watt, Daniel Whelan-Shamy, Lida Ghahremanlou, Liam Magee, | (参考訳) 大規模言語モデル(LLM)は有望な分析ツールである。
従来のテキスト処理システムにはない文脈やニュアンスに敏感な大量のデータを分析することで、人間のてんかん、認知、推論能力を強化し、複雑な環境や対象を理解する「センスメイキング」をサポートすることができる。
本稿では,LLMが議論の的となっているトピックのテーマ分析をどのように支援できるかを探索するパイロット実験について述べる。
オーストラリア・ロドデブト事件のメディア報道から、人間の研究者と2人のLLMが、どのようにしてGPT-4とLlama 2を抜粋したのかを比較した。
本研究は,人間エージェントと機械エージェントのセマンティック分類における重なり合いとばらつきに注目し,LLMが言論やテーマ分析の支援に有効であるかを示唆する。
我々は、LLMは人間の解釈に取って代わらず、強化するために使われるべきだと論じ、定性的な研究手法への自動化の適用に関する既存の研究に、さらなる方法論的な洞察と考察を加えている。
また、研究者と実践者がLSMを解析ツールとしてさらに疑問視するための新しいカードベースのデザインツールキットも導入する。
Large Language Models (LLMs) are promising analytical tools. They can augment human epistemic, cognitive and reasoning abilities, and support 'sensemaking', making sense of a complex environment or subject by analysing large volumes of data with a sensitivity to context and nuance absent in earlier text processing systems. This paper presents a pilot experiment that explores how LLMs can support thematic analysis of controversial topics. We compare how human researchers and two LLMs GPT-4 and Llama 2 categorise excerpts from media coverage of the controversial Australian Robodebt scandal. Our findings highlight intriguing overlaps and variances in thematic categorisation between human and machine agents, and suggest where LLMs can be effective in supporting forms of discourse and thematic analysis. We argue LLMs should be used to augment, and not replace human interpretation, and we add further methodological insights and reflections to existing research on the application of automation to qualitative research methods. We also introduce a novel card-based design toolkit, for both researchers and practitioners to further interrogate LLMs as analytical tools. | 翻訳日:2024-05-14 19:22:14 公開日:2024-05-11 |
# EmoMix-3L:Bangla- English-Hindi 感情検出のためのコード混合データセット
EmoMix-3L: A Code-Mixed Dataset for Bangla-English-Hindi Emotion Detection ( http://arxiv.org/abs/2405.06922v1 ) ライセンス: Link先を確認 | Nishat Raihan, Dhiman Goswami, Antara Mahmud, Antonios Anastasopoulos, Marcos Zampieri, | (参考訳) コードミキシング(Code-mixing)は、2つ以上の言語がテキストや音声で混合されるときに発生する、よく研究された言語現象である。
コードミックスデータ上で、データセットの構築と下流のNLPタスクの実行について、いくつかの研究がなされている。
3つ以上の言語のコードミキシングを観測することは珍しくないが、この領域で利用可能なデータセットのほとんどは、2つの言語のみのコードミキシングデータを含んでいる。
本稿では,3言語間のコード混合データを含む新しいマルチラベル感情検出データセットであるEmoMix-3Lを紹介する。
我々はEmoMix-3Lでいくつかのモデルを実験し、MuRILが他のモデルよりも優れていることを報告した。
Code-mixing is a well-studied linguistic phenomenon that occurs when two or more languages are mixed in text or speech. Several studies have been conducted on building datasets and performing downstream NLP tasks on code-mixed data. Although it is not uncommon to observe code-mixing of three or more languages, most available datasets in this domain contain code-mixed data from only two languages. In this paper, we introduce EmoMix-3L, a novel multi-label emotion detection dataset containing code-mixed data from three different languages. We experiment with several models on EmoMix-3L and we report that MuRIL outperforms other models on this dataset. | 翻訳日:2024-05-14 19:22:14 公開日:2024-05-11 |
# 量子力学の革命:多世界解釈の誕生と進化
Revolutionizing Quantum Mechanics: The Birth and Evolution of the Many-Worlds Interpretation ( http://arxiv.org/abs/2405.06924v1 ) ライセンス: Link先を確認 | Arnub Ghosh, | (参考訳) 量子力学の多世界解釈(MWI)は20世紀半ばから物理学者や哲学者を魅了してきた。
本稿では、量子論の文脈におけるMWIの歴史的ルーツ、進化、および含意について考察する。
量子力学の初期の発展と基礎解釈の出現から始まり、物理学者のヒュー・エヴェレット3世(Hugh Everett III)の画期的な研究を通して、MWIの起源を掘り下げる。
エヴェレットの博士論文は、量子現象を考慮に入れた複数の分枝宇宙の存在を仮定して、測定問題の急進的な解を提案した。
我々は、MWIの進化を辿り、ジョン・ウィーラーのようなその後の物理学者による洗練と実験を調査した。
さらに、MWIが現代物理学に与える影響について論じ、量子情報理論への接続や進行中の実験実験について論じる。
この論文は、MWIの歴史的発展と現在の関係を包括的に分析することにより、量子力学の最も挑発的な解釈の1つとその宇宙の理解への意味についての洞察を提供する。
The Many-worlds Interpretation (MWI) of quantum mechanics has captivated physicists and philosophers alike since its inception in the mid-20th century. This paper explores the historical roots, evolution, and implications of the MWI within the context of quantum theory. Beginning with an overview of early developments in quantum mechanics and the emergence of foundational interpretations, we delve into the origins of the MWI through the groundbreaking work of physicist Hugh Everett III. Everett's doctoral thesis proposed a radical solution to the measurement problem, positing the existence of multiple branching universes to account for quantum phenomenon. We trace the evolution of the MWI, examining its refinement and elaboration by subsequent physicists such as John Wheeler. Furthermore, we discuss the MWI's impact on contemporary physics, including its connections to quantum information theory and ongoing experimental tests. By providing a comprehensive analysis of the MWI's historical development and current relevance, this paper offers insights into one of the most provocative interpretations of quantum mechanics and its implications for our understanding of the universe. | 翻訳日:2024-05-14 19:22:14 公開日:2024-05-11 |
# 因果推論を用いた適応強化学習型半教師付き異常検出
Semi-supervised Anomaly Detection via Adaptive Reinforcement Learning-Enabled Method with Causal Inference ( http://arxiv.org/abs/2405.06925v1 ) ライセンス: Link先を確認 | Xiangwei Chen, Ruliang Xiaoa, Zhixia Zeng, Zhipeng Qiu, Shi Zhang, Xin Du, | (参考訳) インテリジェントシステムの信頼性を保証するための半教師付き異常検出が注目されている。
しかし、既存の手法はデータの相関や因果関係の無視に大きく依存しており、要因の相違やシステムの信頼性に悪影響を及ぼす可能性がある。
さらに、現在の強化学習異常検出法は、ラベル付きサンプルに制限された環境において、既知の、未知の異常を効果的に識別することができる。
その効果にもかかわらず、これらの手法は、事前知識の未活用、モデルの柔軟性の欠如、環境と対話する際の報酬のフィードバック不足など、いくつかの課題に直面している。
そこで本研究では,Tri-CRLAD(Tri-CRLAD:Tri-Assisted Causal Reinforcement Learning Anomaly Detector)と呼ばれる因果強化学習モデルを構築した。
このモデルは因果推論機構を利用して、半教師付きモデルの性能を根本的に改善し、未知または稀なデータに直面した異常データを明らかにするモデルの能力を高める。
さらに、Tri-CRLADは、歴史的類似性に基づくサンプリング戦略、適応しきい値平滑化調整戦略、適応決定報酬機構という3つの決定支援機構を備えている。
これらのメカニズムはモデルの柔軟性と一般化能力をさらに強化し、様々な複雑で動的に変化する環境に効果的に対応できるようにする。
最後に、Tri-CRLADは、衛星システム、医療システム、健康システムを含む7つの多様なインテリジェントシステムデータセットの9つのベースラインメソッドのパフォーマンスを一致または超過する。
さらに, 異常検出安定性は, 極めて少数の既知の異常サンプルで最大23\%向上した。
私たちのコードはhttps://github.com/Aoudsung/Tri-CRLAD/で利用可能です。
Semi-supervised anomaly detection for guaranteeing the reliability of intelligent systems has received increasing attention. However, existing methods rely too much on data correlation and neglect causality, which can be misleading due to confounding factors and affect system reliability. Additionally, the current reinforcement learning anomaly detection methods can effectively identify known and unknown anomalies in environments with limited labeled samples. Despite its effectiveness, these methods still face several challenges, such as under-utilization of priori knowledge, lack of model flexibility, and insufficient reward feedback when interacting with the environment. To address the above problems, this paper innovatively constructs a counterfactual causal reinforcement learning model, termed Triple-Assisted Causal Reinforcement Learning Anomaly Detector (Tri-CRLAD). The model utilizes the causal inference mechanism to radically improve the performance of semi-supervised models and enhance the model's ability to uncover anomaly data in the face of unknown or rare data. In addition, Tri-CRLAD features a triple decision support mechanism, namely, a sampling strategy based on historical similarity, an adaptive threshold smoothing adjustment strategy, and an adaptive decision reward mechanism. These mechanisms further enhance the flexibility and generalization ability of the model, enabling it to effectively respond to various complex and dynamically changing environments. Finally, Tri-CRLAD matches or exceeds the performance of 9 baseline methods across 7 diverse intelligent system datasets, including satellite systems, medical systems, and health systems. Moreover, anomaly detection stability was significantly improved by up to 23\% with an extremely small number of known anomaly samples. Our code is available at https://github.com/Aoudsung/Tri-CRLAD/ | 翻訳日:2024-05-14 19:22:14 公開日:2024-05-11 |
# TAI++: マルチラベル画像分類のためのテキスト・アズ・イメージ
TAI++: Text as Image for Multi-Label Image Classification by Co-Learning Transferable Prompt ( http://arxiv.org/abs/2405.06926v1 ) ライセンス: Link先を確認 | Xiangyu Wu, Qing-Yuan Jiang, Yang Yang, Yi-Feng Wu, Qing-Guo Chen, Jianfeng Lu, | (参考訳) 近年,事前学習型視覚言語モデルに基づくプロンプトチューニングの導入により,マルチラベル画像分類の性能が劇的に向上した。
しかし、現在検討されているいくつかの戦略には、高コストで大量のラベル付き視覚データを利用するか、テキストデータのみをテキストのプロンプトチューニングに使用するか、視覚知識の多様性を学ばないという欠点がある。
したがって、これらのメソッドのアプリケーションシナリオは限られている。
本稿では,この問題に対処するための暗黙的な視覚的プロンプトチューニングのための擬似視覚プロンプト~(PVP)モジュールを提案する。
具体的には、まず各カテゴリの擬似視覚的プロンプトを学習し、事前学習された視覚言語モデルのよく整合した空間によって多様な視覚的知識をマイニングする。
次に、擬似視覚的プロンプトからテキストプロンプトへ視覚的知識を伝達し、視覚的表現能力を高めるために、二重適応モジュールを用いた協調学習戦略を設計する。
VOC2007, MS-COCO, NUSWIDEデータセットによる実験結果から, マルチラベル画像分類タスクにおいて, 提案手法が最先端〜SOTA(State-of-the-art~)手法を超越できることが判明した。
コードはhttps://github.com/njustkmg/PVPで入手できる。
The recent introduction of prompt tuning based on pre-trained vision-language models has dramatically improved the performance of multi-label image classification. However, some existing strategies that have been explored still have drawbacks, i.e., either exploiting massive labeled visual data at a high cost or using text data only for text prompt tuning and thus failing to learn the diversity of visual knowledge. Hence, the application scenarios of these methods are limited. In this paper, we propose a pseudo-visual prompt~(PVP) module for implicit visual prompt tuning to address this problem. Specifically, we first learn the pseudo-visual prompt for each category, mining diverse visual knowledge by the well-aligned space of pre-trained vision-language models. Then, a co-learning strategy with a dual-adapter module is designed to transfer visual knowledge from pseudo-visual prompt to text prompt, enhancing their visual representation abilities. Experimental results on VOC2007, MS-COCO, and NUSWIDE datasets demonstrate that our method can surpass state-of-the-art~(SOTA) methods across various settings for multi-label image classification tasks. The code is available at https://github.com/njustkmg/PVP. | 翻訳日:2024-05-14 19:22:14 公開日:2024-05-11 |
# PreNet: リアルタイム3D行動認識のためのPlane-Fit冗長性符号化ポイントクラウドシーケンスネットワーク
PRENet: A Plane-Fit Redundancy Encoding Point Cloud Sequence Network for Real-Time 3D Action Recognition ( http://arxiv.org/abs/2405.06929v1 ) ライセンス: Link先を確認 | Shenglin He, Xiaoyang Qu, Jiguang Wan, Guokuan Li, Changsheng Xie, Jianzong Wang, | (参考訳) ポイントクラウドシーケンスから人間の行動を認識することは、その幅広い応用により、学術と産業の両方から大きな注目を集めている。
しかし、ポイントクラウドの行動認識に関するこれまでの研究は、一般にフレーム内の空間的特徴とフレーム間の時間的特徴を抽出するために複雑なネットワークを必要とする。
これによりレイテンシが高くなり、現実のアプリケーションでは非現実的になります。
そこで本研究では,Plane-Fit Redundancy Encoding Point Cloud Sequence NetworkであるPrepreNetを提案する。
提案手法の基本的な概念は,空間的冗長性を軽減するために平面フィッティングを用いることで,全列の時間的冗長性を同時に符号化し,冗長な計算を最小化することである。
具体的には,Plane-Fit EmbeddingモジュールとSpatio-Temporal Consistency Encodingモジュールの2つの主要モジュールで構成されている。
Plane-Fit Embeddingモジュールは、連続する点の雲のフレームが物理空間にユニークな幾何学的特徴を示すという観察に基づいており、空間的に符号化されたデータを時間的ストリームエンコーディングのために再利用することができる。
時空間配置と時間的に冗長な部分の時間構造を対応付けて、認識精度を向上させる。
我々は,ネットワークの有効性を検証するために,数多くの実験を行った。
実験の結果,本手法は,他の最先端手法に比べてほぼ4倍高速でありながら,ほぼ同一の認識精度が得られた。
Recognizing human actions from point cloud sequence has attracted tremendous attention from both academia and industry due to its wide applications. However, most previous studies on point cloud action recognition typically require complex networks to extract intra-frame spatial features and inter-frame temporal features, resulting in an excessive number of redundant computations. This leads to high latency, rendering them impractical for real-world applications. To address this problem, we propose a Plane-Fit Redundancy Encoding point cloud sequence network named PRENet. The primary concept of our approach involves the utilization of plane fitting to mitigate spatial redundancy within the sequence, concurrently encoding the temporal redundancy of the entire sequence to minimize redundant computations. Specifically, our network comprises two principal modules: a Plane-Fit Embedding module and a Spatio-Temporal Consistency Encoding module. The Plane-Fit Embedding module capitalizes on the observation that successive point cloud frames exhibit unique geometric features in physical space, allowing for the reuse of spatially encoded data for temporal stream encoding. The Spatio-Temporal Consistency Encoding module amalgamates the temporal structure of the temporally redundant part with its corresponding spatial arrangement, thereby enhancing recognition accuracy. We have done numerous experiments to verify the effectiveness of our network. The experimental results demonstrate that our method achieves almost identical recognition accuracy while being nearly four times faster than other state-of-the-art methods. | 翻訳日:2024-05-14 19:22:14 公開日:2024-05-11 |
# Piccolo2: マルチタスクハイブリッド損失トレーニングによる汎用テキスト埋め込み
Piccolo2: General Text Embedding with Multi-task Hybrid Loss Training ( http://arxiv.org/abs/2405.06932v1 ) ライセンス: Link先を確認 | Junqin Huang, Zhongjie Hu, Zihao Jing, Mengya Gao, Yichao Wu, | (参考訳) 本稿では,CMTEBベンチマークの6つのタスクに対する総合的な評価において,他のモデルを上回る埋め込みモデルであるPiccolo2を紹介する。
Piccolo2は主に効率的なマルチタスクハイブリッド損失トレーニングアプローチを活用し、さまざまな下流タスクからテキストデータとラベルを効果的に活用する。
さらに、Piccolo2は埋め込み次元を拡大し、MRLトレーニングを使用してより柔軟なベクトル次元をサポートする。
piccoloモデルの最新の情報は、https://huggingface.co/sensenova/を通じてアクセスすることができる。
In this report, we introduce Piccolo2, an embedding model that surpasses other models in the comprehensive evaluation over 6 tasks on CMTEB benchmark, setting a new state-of-the-art. Piccolo2 primarily leverages an efficient multi-task hybrid loss training approach, effectively harnessing textual data and labels from diverse downstream tasks. In addition, Piccolo2 scales up the embedding dimension and uses MRL training to support more flexible vector dimensions. The latest information of piccolo models can be accessed via: https://huggingface.co/sensenova/ | 翻訳日:2024-05-14 19:22:14 公開日:2024-05-11 |
# FlexiSCD: 動的欠陥のためのフレキシブルなSurface Code Deformer
FlexiSCD: Flexible Surface Code Deformer for Dynamic Defects ( http://arxiv.org/abs/2405.06941v1 ) ライセンス: Link先を確認 | Keyi Yin, Hezi Zhang, Yunong Shi, Travis Humble, Ang Li, Yufei Ding, | (参考訳) 量子誤り訂正(Quantum Error Correction, QEC)符号は、物理量子ビットに冗長に量子情報を符号化することで、量子コンピュータをノイズから保護するために不可欠である。
しかし、動的欠陥は大きな課題となり、様々な量子プラットフォームにわたる計算中に物理量子ビットが故障する可能性がある。
現在の欠陥軽減戦略は表面コードに重点を置いているが、QEC能力の完全回復や論理演算の妨害に失敗することが多い。
本稿では,適応的欠陥軽減を表面コードワークフローに統合するコード変形フレームワークであるFlexiSCDを紹介する。
ゲージ変換に基づいて基本変形命令を戦略的に作成し、特定の欠陥に合わせて最適化されたプロセスを可能にし、QEC能力をより少ないキュービットリソースで効率的に復元する。
また、効率的な論理演算のための適応的なコードレイアウトも設計する。
評価の結果、FlexiSCDは、従来の手法に比べて、障害発生率を35\times\sim70\times$に下げ、キュービットリソースの半分しか必要としないことがわかった。
従来の欠陥除去技術を超え、QEC能力を保ち、表面コード通信を改善している。
Quantum Error Correction (QEC) codes are vital for protecting quantum computers from noise by encoding quantum information redundantly in physical qubits. However, dynamic defects pose a significant challenge, potentially rendering physical qubits faulty during computation across various quantum platforms. Current defect mitigation strategies focus on surface codes, but often fail to fully restore QEC capability or disrupt logical operations. In our paper, we introduce FlexiSCD, a code deformation framework that integrates adaptive defect mitigation into surface code workflows. It strategically crafts basic deformation instructions based on gauge transformations, enabling optimized processes tailored to specific defects, restoring QEC capability efficiently with fewer qubit resources. We also design an adaptive code layout for efficient logical operations. Our evaluation demonstrates that FlexiSCD reduces failure rates by $35\times\sim70\times$ and requires only half the qubit resources compared to previous methods. It surpasses previous defect removal techniques, preserving QEC capability and improving surface code communication. | 翻訳日:2024-05-14 19:22:14 公開日:2024-05-11 |
# イベントフォカルスタックによるフォーカスからの単眼深度学習
Learning Monocular Depth from Focus with Event Focal Stack ( http://arxiv.org/abs/2405.06944v1 ) ライセンス: Link先を確認 | Chenxu Jiang, Mingyuan Lin, Chi Zhang, Zhenghai Wang, Lei Yu, | (参考訳) Focusの深さは、焦点距離の異なる複数のショット、すなわちFocal Stackから最大焦点のモーメントを決定することによって、深さを推定する。
しかし、従来の光学カメラのサンプリングレートに制限があるため、フォーカススイープ中に十分なフォーカス手がかりを得ることは困難である。
生物学的ビジョンにインスパイアされたイベントカメラは、極めて低レイテンシで時間とともに強度の変化を記録し、焦点時間取得のための時間的情報を提供する。
本研究では,イベントフォカルスタックからスパース深さを推定するEDFFネットワークを提案する。
具体的には、イベントボクセルグリッドを用いて、強度変化情報とイベント時間表面を深度領域に投影し、画素ごとの焦点距離情報を保存する。
上記の情報を融合させるために、Focal-Distance-Guided Cross-Modal Attention Moduleが提示される。
さらに,UNetのようなアーキテクチャの各レベルから結果を統合し,最終的な出力を生成する多層深度核融合ブロックを提案する。
大規模な実験により,本手法は既存の最先端手法よりも優れていたことが確認された。
Depth from Focus estimates depth by determining the moment of maximum focus from multiple shots at different focal distances, i.e. the Focal Stack. However, the limited sampling rate of conventional optical cameras makes it difficult to obtain sufficient focus cues during the focal sweep. Inspired by biological vision, the event camera records intensity changes over time in extremely low latency, which provides more temporal information for focus time acquisition. In this study, we propose the EDFF Network to estimate sparse depth from the Event Focal Stack. Specifically, we utilize the event voxel grid to encode intensity change information and project event time surface into the depth domain to preserve per-pixel focal distance information. A Focal-Distance-guided Cross-Modal Attention Module is presented to fuse the information mentioned above. Additionally, we propose a Multi-level Depth Fusion Block designed to integrate results from each level of a UNet-like architecture and produce the final output. Extensive experiments validate that our method outperforms existing state-of-the-art approaches. | 翻訳日:2024-05-14 19:07:50 公開日:2024-05-11 |
# 3次元ガウススプレイティングによるメッシュと外観の直接学習
Direct Learning of Mesh and Appearance via 3D Gaussian Splatting ( http://arxiv.org/abs/2405.06945v1 ) ライセンス: Link先を確認 | Ancheng Lin, Jun Li, | (参考訳) 明示的な幾何学情報を含む3Dシーンの正確な再構築は魅力的かつ困難である。
幾何再構成は、3DGS(英語版)(英語版)(英語版)(英語版)(英語版)(英語版)(英語版)(英語版)(英語版))や3Dガウス散乱(英語版)(英語版)(英語版)(英語版)(英語版)(英語版)(英語版)(英語版)(英語版)(英語版)のような異なる外観モデル(英語版)を取り入れることの恩恵を受ける。
本研究では、3DGSを明示的な幾何学的表現、すなわちメッシュに組み込んだ学習可能なシーンモデルを提案する。
我々のモデルはメッシュと外観をエンドツーエンドで学習し、メッシュ面に3Dガウスアンを結合し、3DGSの微分レンダリングを行い、測光監督を得る。
このモデルは、メッシュを含むシーンの学習を監督する効果的な情報経路を作成する。
実験により、学習シーンモデルは最先端のレンダリング品質を達成するだけでなく、明示的なメッシュによる操作もサポートすることが示された。
さらに、当社のモデルは、メッシュと外観の両方のエンドツーエンド学習のおかげで、シーン更新に適応する上で、ユニークなアドバンテージを持っています。
Accurately reconstructing a 3D scene including explicit geometry information is both attractive and challenging. Geometry reconstruction can benefit from incorporating differentiable appearance models, such as Neural Radiance Fields and 3D Gaussian Splatting (3DGS). In this work, we propose a learnable scene model that incorporates 3DGS with an explicit geometry representation, namely a mesh. Our model learns the mesh and appearance in an end-to-end manner, where we bind 3D Gaussians to the mesh faces and perform differentiable rendering of 3DGS to obtain photometric supervision. The model creates an effective information pathway to supervise the learning of the scene, including the mesh. Experimental results demonstrate that the learned scene model not only achieves state-of-the-art rendering quality but also supports manipulation using the explicit mesh. In addition, our model has a unique advantage in adapting to scene updates, thanks to the end-to-end learning of both mesh and appearance. | 翻訳日:2024-05-14 19:07:50 公開日:2024-05-11 |
# コンポジションテキスト・ツー・イメージ生成のための学習不要な主題強化注意指導
Training-free Subject-Enhanced Attention Guidance for Compositional Text-to-image Generation ( http://arxiv.org/abs/2405.06948v1 ) ライセンス: Link先を確認 | Shengyuan Liu, Bo Wang, Ye Ma, Te Yang, Xipeng Cao, Quan Chen, Han Li, Di Dong, Peng Jiang, | (参考訳) 既存の被写体駆動のテキスト・ツー・イメージ生成モデルは、退屈な微調整のステップに悩まされ、テキスト・イメージアライメントと被写体忠実性の両方を維持するのに苦労する。
合成対象を生成するために、しばしばオブジェクトの欠落や属性の混合といった問題に遭遇する。
これらの制約に対処するため,本研究では,推論時間中に生成過程に介入するためのトレーニング不要な指導手法を提案する。
このアプローチは注目マップを強化し、各主題に対して正確な属性バインディングと特徴注入を可能にする。
特に,本手法は例外的なゼロショット生成能力を示し,特にコンポジション生成の難易度が高い。
さらに,主観的アライメントを徹底的に評価するための新しい測定基準であるGundingScoreを提案する。
得られた定量的結果は,提案手法の有効性を示す説得力のある証拠となる。
コードはまもなくリリースされる。
Existing subject-driven text-to-image generation models suffer from tedious fine-tuning steps and struggle to maintain both text-image alignment and subject fidelity. For generating compositional subjects, it often encounters problems such as object missing and attribute mixing, where some subjects in the input prompt are not generated or their attributes are incorrectly combined. To address these limitations, we propose a subject-driven generation framework and introduce training-free guidance to intervene in the generative process during inference time. This approach strengthens the attention map, allowing for precise attribute binding and feature injection for each subject. Notably, our method exhibits exceptional zero-shot generation ability, especially in the challenging task of compositional generation. Furthermore, we propose a novel metric GroundingScore to evaluate subject alignment thoroughly. The obtained quantitative results serve as compelling evidence showcasing the effectiveness of our proposed method. The code will be released soon. | 翻訳日:2024-05-14 19:07:50 公開日:2024-05-11 |
# 開発におけるインテリジェンスとビジネスウォーガミングの役割について
On the Role of Intelligence and Business Wargaming in Developing Foresight ( http://arxiv.org/abs/2405.06957v1 ) ライセンス: Link先を確認 | Aline Werro, Christian Nitzl, Uwe M. Borghoff, | (参考訳) ビジネスウォーガミングは持続的な戦略を開発するための中心的なツールである。
伝統的なウォーガーミングの利点をビジネス環境に移す。
しかし、戦略のための意思決定プロセスを支援する戦争ゲームの構築には、それぞれの知性が必要である。
本稿では,戦略的フォアシーの発達過程におけるインテリジェンスの役割について考察する。
焦点は、インテリジェンスがどのように開発され、それがビジネスウォーゲームにどのように関係しているかである。
いわゆるインテリジェンスサイクルは、私たちの調査の基礎と参照です。
論文のコンセプト部分は、軍事、ビジネス、および真剣なゲームの理論的背景を組み合わせたものである。
そこで我々は,情報セキュリティ研究センター(CISS, Center for Intelligence and Security Studies, CISS, Center for Intelligence and Security Studies, CISS, Center for Intelligence and Security Studies, CISS, Center for Intelligence and Security Studies, CISS, Center for Intelligence and Security Studies, CISS, Center for Intelligence and Security Studies, CISS, Center for Intelligence and Security Studies, CISS, Center for Intelligence and Security Studies, CISS)において,文献から引き出された特定のビジネス・ウォーゲームについて検討した。
ビジネスウォゲーミングは、インテリジェンスサイクルを2つの重要なフェーズで支援することにより、データからインテリジェンスへの変換に重要な貢献をすることができる。
さらに、ビジネスインテリジェンス(BI)と競争インテリジェンス(CI)を統合し、新たな戦略のテストあるいは開発によって、企業の戦略とのギャップを埋める。
また、大手半導体メーカーで実施したビジネス戦争ゲームに基づいて、この発見を確認しました。
Business wargaming is a central tool for developing sustaining strategies. It transfers the benefits of traditional wargaming to the business environment. However, building wargames that support the process of decision-making for strategy require respective intelligence. This paper investigates the role of intelligence in the process of developing strategic foresight. The focus is on how intelligence is developed and how it relates to business wargaming. The so-called intelligence cycle is the basis and reference of our investigation. The conceptual part of the paper combines the theoretical background from military, business as well as serious gaming. To elaborate on some of the lessons learned, we examine specific business wargames both drawn from the literature and conducted by us at the Center for Intelligence and Security Studies (CISS). It is shown that business wargaming can make a significant contribution to the transformation of data to intelligence by supporting the intelligence cycle in two crucial phases. Furthermore, it brings together business intelligence (BI) and competitive intelligence (CI) and it bridges the gap to a company's strategy by either testing or developing a new strategy. We were also able to confirm this finding based on the business wargame we conducted at a major semiconductor manufacturer. | 翻訳日:2024-05-14 19:07:50 公開日:2024-05-11 |
# 急速クエンチ下におけるステアリング量子コヒーレンスとマジックリソースのダイナミクス
Dynamics of Steered Quantum Coherence and Magic Resource under Sudden Quench ( http://arxiv.org/abs/2405.06960v1 ) ライセンス: Link先を確認 | Saeid Ansari, Alireza Akbari, R. Jafari, | (参考訳) 本研究では, 時間依存性横磁場の存在下での一次元XYスピンチェーンにおける, ステアリング量子コヒーレンス (SQC) , ステアリング量子相対エントロピー (SQRE) およびマジックリソース量化器 (QRM) の l_1-ノルムのダイナミクスについて検討する。
系の応答は初期状態と磁場強度に非常に敏感であることがわかった。
%SQC, SQRE, MRQの力学は, 系の平衡量子相転移(QPT)に関連する臨界点を明らかにする。
全ての量は、初期状態が強磁性相で準備されたときにQPTで最大となる。
逆に、系の初期状態が常磁性である場合、量子臨界点において急激な変化が起こる。
さらに, 量子臨界点にクエンチを施すと, 第1の抑制時間(リバイバル時間)はシステムサイズと線形にスケールし, そのスケーリング比は, システムの初期位相に関係なく, 全てのクエンチに対して一定であることを確認した。
%) は, 量子情報資源と量子系の力学との相互作用を平衡から遠ざかっている。
このような洞察は、量子情報処理や量子多体系における非平衡現象の理解に不可欠である。
We explore the dynamics of l_1-norm of steered quantum coherence (SQC), steered quantum relative entropy (SQRE), and magic resource quantifier (QRM) in the one-dimensional XY spin chain in the presence of time dependent transverse magnetic field. We find that the system's response is highly sensitive to the initial state and magnetic field strength. % We show that the dynamics of SQC, SQRE and MRQ revealing the critical point associated with equilibrium quantum phase transition (QPT) of the system. All quantities show maximum at QPT when the initial state is prepared in the ferromagnetic phase. Conversely, they undergo abrupt changes at quantum critical point if the initial state of the system is paramagnetic. Moreover, our results confirm that, when quench is done to the quantum critical point, the first suppression (revival) time scales linearly with the system size, and remarkably, its scaling ratio remains consistent for all quenches, irrespective of the initial phase of the system. % These results highlight the interplay between the quantum information resources and dynamics of quantum systems away from the equilibrium. Such insights could be vital for quantum information processing and understanding non-equilibrium phenomena in quantum many-body systems. | 翻訳日:2024-05-14 19:07:50 公開日:2024-05-11 |
# 分散Exact Generalized Grover's Algorithm
Distributed Exact Generalized Grover's Algorithm ( http://arxiv.org/abs/2405.06963v1 ) ライセンス: Link先を確認 | Xu Zhou, Xusheng Xu, Shenggen Zheng, Le Luo, | (参考訳) 分散量子計算は、各計算ノードがより少ない量子ビットと量子ゲートを必要とする、ノイズの多い中間スケール量子(NISQ)時代に大きな注目を集めている。
本稿では,無順序データベース内の複数のターゲットを対象とする汎用検索問題に着目し,これを任意の$t$コンポーネントに分解することで,分散Exact Generalized Grover's Algorithm (DEGGA)を提案する。
具体的には,(1)目標状態が100\%$である確率,(2)目標数が固定された場合,DGGAの回路深度に影響を与えるピボット係数は$n$ではなくパーティショニング戦略であり,(3)補助量子ビットの必要をなくすために合計$n$ qubitsを必要とし,(4)DGGAを適用することによって2つのゴール文字列(000と1111)を組み込んだ特定の汎用検索問題の解法(2ノードと3ノード)を解明する。
提案手法の有効性と有効性は,MindSpore Quantum(量子シミュレーションソフトウェア)上で量子回路を実行することによってさらに実証される。
最終的に、マルチキュービットゲートの分解により、DGGAは量子ゲートの利用を90.7 %$に減らし、回路深さをロングによる修正Groverのアルゴリズムと比較して9.3 %$に減らした。
分散量子アルゴリズムがさらなる実用性を提供するのは、ますます明白である。
Distributed quantum computation has garnered immense attention in the noisy intermediate-scale quantum (NISQ) era, where each computational node necessitates fewer qubits and quantum gates. In this paper, we focus on a generalized search problem involving multiple targets within an unordered database and propose a Distributed Exact Generalized Grover's Algorithm (DEGGA) to address this challenge by decomposing it into arbitrary $t$ components, where $2 \leq t \leq n$. Specifically, (1) our algorithm ensures accuracy, with a theoretical probability of identifying the target states at $100\%$; (2) if the number of targets is fixed, the pivotal factor influencing the circuit depth of DEGGA is the partitioning strategy, rather than the magnitude of $n$; (3) our method requires a total of $n$ qubits, eliminating the need for auxiliary qubits; (4) we elucidate the resolutions (two-node and three-node) of a particular generalized search issue incorporating two goal strings (000000 and 111111) by applying DEGGA. The feasibility and effectiveness of our suggested approach is further demonstrated by executing the quantum circuits on MindSpore Quantum (a quantum simulation software). Eventually, through the decomposition of multi-qubit gates, DEGGA diminishes the utilization of quantum gates by $90.7\%$ and decreases the circuit depth by $91.3\%$ in comparison to the modified Grover's algorithm by Long. It is increasingly evident that distributed quantum algorithms offer augmented practicality. | 翻訳日:2024-05-14 19:07:50 公開日:2024-05-11 |
# 任意物体とロボットによる接触合成の汎用ロボット操作のためのマニファウンデーションモデル
ManiFoundation Model for General-Purpose Robotic Manipulation of Contact Synthesis with Arbitrary Objects and Robots ( http://arxiv.org/abs/2405.06964v1 ) ライセンス: Link先を確認 | Zhixuan Xu, Chongkai Gao, Zixuan Liu, Gang Yang, Chenrui Tie, Haozhuo Zheng, Haoyu Zhou, Weikun Peng, Debang Wang, Tianyi Chen, Zhouliang Yu, Lin Shao, | (参考訳) ロボットインテリジェンスを大幅に向上させるためには、LLMが提示する多目的タスクプランニング能力に類似した、汎用ロボットが幅広い操作タスクを十分にこなせるような、大規模なモデルを開発する必要がある。
オブジェクト、ロボット、操作タスクの膨大な多様性は、大きな課題を示します。
本研究は,接触合成として操作タスクを形式化する汎用ロボット操作の基礎モデルを構築するための包括的枠組みを提案する。
具体的には、入力対象とロボットマニピュレータ点雲、物体の物理的属性、目標運動、操作領域マスクをモデルとして扱う。
対象物に接触点を出力し、ロボットが所望の操作作業を達成するための接触力や後接触動作を出力する。
シミュレーションと実世界の設定の両方において、ロープのような1次元物から布のような2次元物まで、プラスチックのような3次元物まで様々に形状が変化する剛体物体、剛体物体、変形可能な物体を操作し、広範囲にわたる実験を行った。
私たちのモデルは、平均的な成功率を約90%達成します。
追加資料とビデオはプロジェクトのWebサイトhttps://manifoundationmodel.github.io/.com/で公開されている。
To substantially enhance robot intelligence, there is a pressing need to develop a large model that enables general-purpose robots to proficiently undertake a broad spectrum of manipulation tasks, akin to the versatile task-planning ability exhibited by LLMs. The vast diversity in objects, robots, and manipulation tasks presents huge challenges. Our work introduces a comprehensive framework to develop a foundation model for general robotic manipulation that formalizes a manipulation task as contact synthesis. Specifically, our model takes as input object and robot manipulator point clouds, object physical attributes, target motions, and manipulation region masks. It outputs contact points on the object and associated contact forces or post-contact motions for robots to achieve the desired manipulation task. We perform extensive experiments both in the simulation and real-world settings, manipulating articulated rigid objects, rigid objects, and deformable objects that vary in dimensionality, ranging from one-dimensional objects like ropes to two-dimensional objects like cloth and extending to three-dimensional objects such as plasticine. Our model achieves average success rates of around 90\%. Supplementary materials and videos are available on our project website at https://manifoundationmodel.github.io/. | 翻訳日:2024-05-14 19:07:50 公開日:2024-05-11 |
# 拡張Weberロケーション問題に対する非特異部分次的アプローチ
A De-singularity Subgradient Approach for the Extended Weber Location Problem ( http://arxiv.org/abs/2405.06965v1 ) ライセンス: Link先を確認 | Zhao-Rong Lai, Xiaotian Wu, Liangda Fang, Ziliang Chen, | (参考訳) 拡張されたWeberロケーション問題は古典的な最適化問題であり、最近、いくつかの機械学習シナリオでいくつかの新しい研究に影響を与えた。
しかし、ほとんどの既存のアルゴリズムは、コスト関数 q<2$ のパワーが広く使われるイテレーティブWeiszfeld アプローチのように、データポイントの特異性のために立ち往生する可能性がある。
本稿では,この問題に対する非特異な下位段階のアプローチを確立する。
また、過去のWeiszfeldアルゴリズムの証明の不完全文を固定した収束の完全証明も提供する。
さらに、最小点が特異点である特別な場合において、反復列に対する超線型収束の新たな理論的結果を導出する。
実世界の機械学習シナリオにおいて、提案手法が特異性問題を解くことを示し、非特異性の場合と同じ結果を示し、線形収束の合理的な速度を示す。
その結果、$q$-th($1<q<2$)のパワーケースは、いくつかの状況では$1$-stのパワーケースと$2$のパワーケースよりも有利であることがわかった。
したがって、デsingularity subgradientアプローチは、拡張されたWeber位置問題に対する理論と実践の進展に有用である。
The extended Weber location problem is a classical optimization problem that has inspired some new works in several machine learning scenarios recently. However, most existing algorithms may get stuck due to the singularity at the data points when the power of the cost function $1\leqslant q<2$, such as the widely-used iterative Weiszfeld approach. In this paper, we establish a de-singularity subgradient approach for this problem. We also provide a complete proof of convergence which has fixed some incomplete statements of the proofs for some previous Weiszfeld algorithms. Moreover, we deduce a new theoretical result of superlinear convergence for the iteration sequence in a special case where the minimum point is a singular point. We conduct extensive experiments in a real-world machine learning scenario to show that the proposed approach solves the singularity problem, produces the same results as in the non-singularity cases, and shows a reasonable rate of linear convergence. The results also indicate that the $q$-th power case ($1<q<2$) is more advantageous than the $1$-st power case and the $2$-nd power case in some situations. Hence the de-singularity subgradient approach is beneficial to advancing both theory and practice for the extended Weber location problem. | 翻訳日:2024-05-14 19:07:50 公開日:2024-05-11 |
# 機械学習による再帰関係の解法と論理プログラムのコスト分析への応用
A Machine Learning-based Approach for Solving Recurrence Relations and its use in Cost Analysis of Logic Programs ( http://arxiv.org/abs/2405.06972v1 ) ライセンス: Link先を確認 | Louis Rustenholz, Maximiliano Klemen, Miguel Ángel Carreira-Perpiñán, Pedro López-García, | (参考訳) 自動静的コスト分析は、具体的なデータで実際に実行せずにプログラムが使用するリソースに関する情報を推測し、入力データサイズの関数のような情報を提示する。
CiaoPPのような論理プログラム(および他の言語の多く)の分析ツールのほとんどは、述語の計算コストを表す(有界な)再帰関係を設定し、閉形式関数を見つけるためにそれらを解決することに基づいている。
このようなリカレンス解決は、現在のツールのボトルネックとなっている: 解析中に発生するリカレンスの多くは、コンピュータ代数システム(CAS)を含む最先端のリカレンスでは解決できないため、異なるリカレンスクラスの特定のメソッドを開発する必要がある。
このような課題は、任意の制約付き反復関係を解くための新しい一般的なアプローチを開発し、機械学習(疎線形および記号的)回帰手法を用いて候補閉形式関数を推定し、SMT-ソルバとCASを組み合わせることで、それが実際に再発の解であるかどうかを確認することで解決する。
CiaoPPシステムにおけるプロトタイプの実装とその実験的評価は,非常に有望な結果を示した。
総合的に比較すると,提案手法は最先端のコスト解析器や繰り返し解法よりも優れており,それらが解決できない繰り返し解法を解くことができる。
Automatic static cost analysis infers information about the resources used by programs without actually running them with concrete data, and presents such information as functions of input data sizes. Most of the analysis tools for logic programs (and many for other languages), as CiaoPP, are based on setting up recurrence relations representing (bounds on) the computational cost of predicates, and solving them to find closed-form functions. Such recurrence solving is a bottleneck in current tools: many of the recurrences that arise during the analysis cannot be solved with state-of-the-art solvers, including Computer Algebra Systems (CASs), so that specific methods for different classes of recurrences need to be developed. We address such a challenge by developing a novel, general approach for solving arbitrary, constrained recurrence relations, that uses machine-learning (sparse-linear and symbolic) regression techniques to guess a candidate closed-form function, and a combination of an SMT-solver and a CAS to check if it is actually a solution of the recurrence. Our prototype implementation and its experimental evaluation within the context of the CiaoPP system show quite promising results. Overall, for the considered benchmarks, our approach outperforms state-of-the-art cost analyzers and recurrence solvers, and solves recurrences that cannot be solved by them. | 翻訳日:2024-05-14 19:07:50 公開日:2024-05-11 |
# 優先的な非単調な命題型チーム論理のプライマー
A Primer for Preferential Non-Monotonic Propositional Team Logics ( http://arxiv.org/abs/2405.06973v1 ) ライセンス: Link先を確認 | Kai Sauerwald, Juha Kontinen, | (参考訳) 本稿では,提案型チームセマンティクスの設定におけるKLMスタイルの優先的非単調推論について考察する。
チームベースの命題論理は、自然に累積的な非単調な含意関係をもたらすことを示す。
チームセマンティクスにおける解離の非古典的解釈に触発され、システムPの全ての仮定を満たす命題依存論理の優先的モデルに対して、正確な特徴を与える。
さらに,古典的エンテーメントと依存論理エンテーメントが,非自明な優先モデルでどのように表現できるかを示す。
This paper considers KLM-style preferential non-monotonic reasoning in the setting of propositional team semantics. We show that team-based propositional logics naturally give rise to cumulative non-monotonic entailment relations. Motivated by the non-classical interpretation of disjunction in team semantics, we give a precise characterization for preferential models for propositional dependence logic satisfying all of System P postulates. Furthermore, we show how classical entailment and dependence logic entailment can be expressed in terms of non-trivial preferential models. | 翻訳日:2024-05-14 19:07:50 公開日:2024-05-11 |
# スケーラブル離散型動的グラフニューラルネットワークのための入力スナップショット融合
Input Snapshots Fusion for Scalable Discrete Dynamic Graph Nerual Networks ( http://arxiv.org/abs/2405.06975v1 ) ライセンス: Link先を確認 | QingGuo Qi, Hongyang Chen, Minhao Cheng, Han Liu, | (参考訳) 動的グラフは現実世界ではユビキタスだが、既存の静的グラフモデルを時間領域に効果的に拡張する適切な理論的なフレームワークは存在しない。
さらに、離散動的グラフ上のリンク予測タスクでは、すべてのノードの埋め込みを保存するための実質的なGPUメモリの必要性は、既存のモデルのスケーラビリティを妨げる。
本稿では,入力 {\bf S}napshots {\bf F}usion based {\bf Dy}namic {\bf G}raph Neural Network (SFDyG)を紹介する。
入力ウィンドウ内でスナップショットのパーティショニングを取り除くことで、マルチグラフ(2つのノード間の1つ以上のエッジ)が得られる。
その後,時間減衰平滑化を仮定したグラフ記述問題を導入することにより,Hawkesプロセス理論をグラフニューラルネットワークに統合し,生成したマルチグラフをモデル化する。
さらに,マルチグラフに基づいて,スケーラブルな3段階のミニバッチトレーニング手法を提案し,フルバッチトレーニング手法と等価性を実証する。
将来のリンク予測タスクに対して,8つの異なる動的グラフデータセットを用いて実験を行った結果,SFDyGが一般的に関連する手法を超越していることが判明した。
Dynamic graphs are ubiquitous in the real world, yet there is a lack of suitable theoretical frameworks to effectively extend existing static graph models into the temporal domain. Additionally, for link prediction tasks on discrete dynamic graphs, the requirement of substantial GPU memory to store embeddings of all nodes hinders the scalability of existing models. In this paper, we introduce an Input {\bf S}napshots {\bf F}usion based {\bf Dy}namic {\bf G}raph Neural Network (SFDyG). By eliminating the partitioning of snapshots within the input window, we obtain a multi-graph (more than one edge between two nodes). Subsequently, by introducing a graph denoising problem with the assumption of temporal decayed smoothing, we integrate Hawkes process theory into Graph Neural Networks to model the generated multi-graph. Furthermore, based on the multi-graph, we propose a scalable three-step mini-batch training method and demonstrate its equivalence to full-batch training counterpart. Our experiments, conducted on eight distinct dynamic graph datasets for future link prediction tasks, revealed that SFDyG generally surpasses related methods. | 翻訳日:2024-05-14 19:07:50 公開日:2024-05-11 |
# オープンセットデータを微妙に活用したロバスト半教師付き学習
Robust Semi-supervised Learning by Wisely Leveraging Open-set Data ( http://arxiv.org/abs/2405.06979v1 ) ライセンス: Link先を確認 | Yang Yang, Nan Jiang, Yi Xu, De-Chuan Zhan, | (参考訳) Open-set Semi-supervised Learning (OSSL) は、ラベル付けされていないデータはラベル付けされていないクラス、すなわちOOD(out-of-distribution)データから来る可能性があるという現実的な設定を持ち、従来のSSLモデルの性能劣化を引き起こす可能性がある。
この問題を解決するため、従来のID分類器を除いて、既存のOSSLアプローチでは、OODデータの潜在的な負の影響を避けるために、追加のOOD検出モジュールを使用している。
それにもかかわらず、これらのアプローチはトレーニングプロセス中に一般的にオープンセットデータの集合全体を使用し、モデルパフォーマンスに悪影響を及ぼす可能性のあるOSSLタスクに親しみのないデータを含む可能性がある。
このことは、OSSLの堅牢なオープンセットデータ選択戦略を開発するきっかけになります。
学習理論の観点からの理論的理解を通じて,モデルの学習にオープンセットデータを選択的に活用する汎用的なOSSLフレームワークであるWise Open-set Semi-supervised Learning (WiseOpen)を提案する。
勾配分散に基づく選択機構を適用することで、WiseOpenは、オープンセットデータセット全体ではなく、フレンドリなサブセットを利用して、モデルのID分類能力を向上する。
また,その計算コストを削減するために,低周波更新と損失ベース選択をそれぞれ採用することにより,WiseOpenの実用的2つのバリエーションを提案する。
大規模な実験は、最先端技術と比較してWiseOpenの有効性を実証している。
Open-set Semi-supervised Learning (OSSL) holds a realistic setting that unlabeled data may come from classes unseen in the labeled set, i.e., out-of-distribution (OOD) data, which could cause performance degradation in conventional SSL models. To handle this issue, except for the traditional in-distribution (ID) classifier, some existing OSSL approaches employ an extra OOD detection module to avoid the potential negative impact of the OOD data. Nevertheless, these approaches typically employ the entire set of open-set data during their training process, which may contain data unfriendly to the OSSL task that can negatively influence the model performance. This inspires us to develop a robust open-set data selection strategy for OSSL. Through a theoretical understanding from the perspective of learning theory, we propose Wise Open-set Semi-supervised Learning (WiseOpen), a generic OSSL framework that selectively leverages the open-set data for training the model. By applying a gradient-variance-based selection mechanism, WiseOpen exploits a friendly subset instead of the whole open-set dataset to enhance the model's capability of ID classification. Moreover, to reduce the computational expense, we also propose two practical variants of WiseOpen by adopting low-frequency update and loss-based selection respectively. Extensive experiments demonstrate the effectiveness of WiseOpen in comparison with the state-of-the-art. | 翻訳日:2024-05-14 19:07:50 公開日:2024-05-11 |
# 異常検出と局所化のための事前学習データセットとしてのフラクタル
Fractals as Pre-training Datasets for Anomaly Detection and Localization ( http://arxiv.org/abs/2405.06980v1 ) ライセンス: Link先を確認 | C. I. Ugwu, S. Casarin, O. Lanz, | (参考訳) 異常検出は、欠陥部分の検出とローカライズを支援するため、大規模製造業において不可欠である。
大規模データセットの事前トレーニング機能抽出は、このタスクの一般的なアプローチである。
データセキュリティとプライバシの厳格な規制と高いコストと取得時間によって、このような大規模なデータセットの可用性と作成が妨げられます。
異常検出における最近の研究は、主にそのような抽出器上に構築された新しい手法の開発に焦点が当てられているが、事前学習に使用されるデータの重要性は研究されていない。
そこで, MVTec と VisA のベンチマークデータを用いて, 動的に生成されたフラクタル画像を用いて, 8 つの最先端手法の性能評価を行った。
本研究では, フラクタルの伝達学習能力を主に研究している既存の文献とは対照的に, フラクタル画像を用いた事前学習モデルと, ImageNetで事前学習したモデルとの比較を行った。
ImageNetによる事前トレーニングは依然として明確な勝者であるが、フラクタルの結果は、異常検出タスクが小さな視覚的バリエーションを識別できる機能を必要とすることを考慮し、有望である。
これにより、プライバシやセキュリティ上の懸念を回避しつつ、機械学習におけるデータ需要の増加を緩和する、合成生成された抽象データセットに対して、機能抽出器をトレーニングする新たな研究の方向性が開かれる。
Anomaly detection is crucial in large-scale industrial manufacturing as it helps detect and localise defective parts. Pre-training feature extractors on large-scale datasets is a popular approach for this task. Stringent data security and privacy regulations and high costs and acquisition time hinder the availability and creation of such large datasets. While recent work in anomaly detection primarily focuses on the development of new methods built on such extractors, the importance of the data used for pre-training has not been studied. Therefore, we evaluated the performance of eight state-of-the-art methods pre-trained using dynamically generated fractal images on the famous benchmark datasets MVTec and VisA. In contrast to existing literature, which predominantly examines the transfer-learning capabilities of fractals, in this study, we compare models pre-trained with fractal images against those pre-trained with ImageNet, without subsequent fine-tuning. Although pre-training with ImageNet remains a clear winner, the results of fractals are promising considering that the anomaly detection task required features capable of discerning even minor visual variations. This opens up the possibility for a new research direction where feature extractors could be trained on synthetically generated abstract datasets reconciling the ever-increasing demand for data in machine learning while circumventing privacy and security concerns. | 翻訳日:2024-05-14 19:07:50 公開日:2024-05-11 |
# AraSpell: アラビア語のスペル訂正のためのディープラーニングアプローチ
AraSpell: A Deep Learning Approach for Arabic Spelling Correction ( http://arxiv.org/abs/2405.06981v1 ) ライセンス: Link先を確認 | Mahmoud Salhab, Faisal Abu-Khzam, | (参考訳) スペリング訂正(spelling correct)とは、あるテキストのスペルミス、タイプミス、文法ミスを識別し、文脈や文法構造に応じて修正するタスクである。
この研究は、リカレントニューラルネットワーク(RNN)やトランスフォーマー(Transformer)といった異なるセック2seqモデルアーキテクチャを用いて690万以上のアラビア語文でトレーニングされた、アラビア語のスペル訂正のためのフレームワークである"AraSpell"を紹介した。
詳細な実験により,提案手法の有効性を実証的に検証し,29.72%のWERと5.03%のCERと比較し,それぞれ4.8%,1.11%の単語誤り率(WER)および文字誤り率(CER)を達成した。
提案手法はCERが2.9%,WERが10.65%,CERが10.02%,WERが50.94%であった。
これらの結果は100K文の試験セットで得られる。
Spelling correction is the task of identifying spelling mistakes, typos, and grammatical mistakes in a given text and correcting them according to their context and grammatical structure. This work introduces "AraSpell," a framework for Arabic spelling correction using different seq2seq model architectures such as Recurrent Neural Network (RNN) and Transformer with artificial data generation for error injection, trained on more than 6.9 Million Arabic sentences. Thorough experimental studies provide empirical evidence of the effectiveness of the proposed approach, which achieved 4.8% and 1.11% word error rate (WER) and character error rate (CER), respectively, in comparison with labeled data of 29.72% WER and 5.03% CER. Our approach achieved 2.9% CER and 10.65% WER in comparison with labeled data of 10.02% CER and 50.94% WER. Both of these results are obtained on a test set of 100K sentences. | 翻訳日:2024-05-14 19:07:50 公開日:2024-05-11 |
# RoTHP:回転位置埋め込み型変圧器ホークスプロセス
RoTHP: Rotary Position Embedding-based Transformer Hawkes Process ( http://arxiv.org/abs/2405.06985v1 ) ライセンス: Link先を確認 | Anningzhe Gao, Shan Dai, | (参考訳) テンポラルポイント・プロセス(TPP)、特にホークス・プロセスは、金融取引やユーザー行動などの非同期イベントシーケンスデータをソーシャルネットワークでモデリングするのに一般的に使用される。
ニューラルネットワークの強い適合性のため、様々な時間点過程が提案され、トランスフォーマー・ホークス・プロセス(THP)のような自己注意に基づくニューラル・ホークス・プロセスは、異なる性能向上を実現している。
THPは研究が増えているが、歴史系列のトレーニングや、現実的なシーケンス解析タスクにおいて広く見られるパラダイムである未来についての推論といった『シーケンス予測問題』に悩まされている。
さらに、従来のTHPとその変種は、単に変圧器に初期正弦波を埋め込むだけで、我々の経験的な研究により、時系列データ解析における時間的変化やノイズに対する性能感受性を示す。
本稿では,Rotary Position Embedding-based THP (RoTHP) アーキテクチャを提案する。
特に、理論的にホークス過程と結合した場合に、相対時間埋め込みによって誘導されるRoTHPの変換不変性および {sequence prediction flexibility} を示す。
さらに、我々のRoTHPは、タイムスタンプ変換を伴うシーケンスデータシナリオやシーケンス予測タスクにおいて、より一般化できることを実証的に示す。
Temporal Point Processes (TPPs), especially Hawkes Process are commonly used for modeling asynchronous event sequences data such as financial transactions and user behaviors in social networks. Due to the strong fitting ability of neural networks, various neural Temporal Point Processes are proposed, among which the Neural Hawkes Processes based on self-attention such as Transformer Hawkes Process (THP) achieve distinct performance improvement. Although the THP has gained increasing studies, it still suffers from the {sequence prediction issue}, i.e., training on history sequences and inferencing about the future, which is a prevalent paradigm in realistic sequence analysis tasks. What's more, conventional THP and its variants simply adopt initial sinusoid embedding in transformers, which shows performance sensitivity to temporal change or noise in sequence data analysis by our empirical study. To deal with the problems, we propose a new Rotary Position Embedding-based THP (RoTHP) architecture in this paper. Notably, we show the translation invariance property and {sequence prediction flexibility} of our RoTHP induced by the {relative time embeddings} when coupled with Hawkes process theoretically. Furthermore, we demonstrate empirically that our RoTHP can be better generalized in sequence data scenarios with timestamp translations and in sequence prediction tasks. | 翻訳日:2024-05-14 19:07:50 公開日:2024-05-11 |
# AIに基づく時系列予測における信号分解の有効性の再検討
Revisiting the Efficacy of Signal Decomposition in AI-based Time Series Prediction ( http://arxiv.org/abs/2405.06986v1 ) ライセンス: Link先を確認 | Kexin Jiang, Chuhan Wu, Yaoran Chen, | (参考訳) 時系列予測は、科学的探索と人工知能(AI)技術における根本的な問題であり、その効率と精度を大幅に向上させた。
AI駆動の時系列予測における確立されたパラダイムは、信号分解手法を通じてニューラルネットワークに物理知識を注入することであり、多くのシナリオにおける進歩の持続が報告されている。
しかし、AIに基づく時系列予測において、信号分解の有効性を疑う非無視の証拠を明らかにする。
微妙な将来のラベルリークを伴う不適切なデータセット処理は、残念ながら広く採用されており、異常に優れているが誤った結果をもたらす可能性があることを確認した。
将来的な情報のない厳密な因果的な方法でデータを処理することにより、余分に分解された信号の有効性は低下する。
本研究は, 時系列モデリングにおける微妙で普遍的な誤りを同定し, 今後の科学的欠陥を防止し, 実用的損失を最小限に抑えるために, 関連分野における事実上の進歩を再検討し, 校正することが期待される。
Time series prediction is a fundamental problem in scientific exploration and artificial intelligence (AI) technologies have substantially bolstered its efficiency and accuracy. A well-established paradigm in AI-driven time series prediction is injecting physical knowledge into neural networks through signal decomposition methods, and sustaining progress in numerous scenarios has been reported. However, we uncover non-negligible evidence that challenges the effectiveness of signal decomposition in AI-based time series prediction. We confirm that improper dataset processing with subtle future label leakage is unfortunately widely adopted, possibly yielding abnormally superior but misleading results. By processing data in a strictly causal way without any future information, the effectiveness of additional decomposed signals diminishes. Our work probably identifies an ingrained and universal error in time series modeling, and the de facto progress in relevant areas is expected to be revisited and calibrated to prevent future scientific detours and minimize practical losses. | 翻訳日:2024-05-14 18:57:41 公開日:2024-05-11 |
# ResSurv:残留ネットワークに基づく癌生存分析予測モデル
ResSurv: Cancer Survival Analysis Prediction Model Based on Residual Networks ( http://arxiv.org/abs/2405.06992v1 ) ライセンス: Link先を確認 | Wankang Zhai, | (参考訳) 生存予測は癌予後解析の重要な分野である。
TCGAゲノミクスデータを用いて生存リスクを予測するモデルは、がんに関連する遺伝子を発見し、患者の特徴に基づく診断と治療の勧告を提供することができる。
Cox比例的ハザードに基づくディープラーニングモデルは、高スループットデータを扱う場合、しばしば過度に適合する。
さらに,ネットワーク層が増加するにつれて実験結果が向上せず,ネットワーク劣化が生じることが判明した。
そこで本研究では,Deep Residual Learningに基づく新しいフレームワークを提案する。
Cox比例的ハザードと残留性の概念を組み合わせる。
名前はResSurv。
まず、ResSurvはフィードフォワードのディープラーニングネットワークで、複数の基本的なResNetブロックがスタックされている。
各ResNetブロックに正規化層を追加し、勾配の消失と勾配の爆発を防止する。
次に、ニューラルネットワークの損失関数について、Cox比例ハザード法を継承し、CPHモデルの半パラメトリックをニューラルネットワークに適用し、部分確率モデルと組み合わせ、損失関数を確立し、バックプロパゲーションと勾配更新を行った。
最後に、異なる深さのResSurvネットワークを比較し、高次元の特徴を効果的に抽出できることを見出した。
アブレーション実験と比較実験により、ディープラーニングの分野において、我々のモデルがSOTA(state-of-the-art)に達したことが証明され、我々のネットワークは、ディープ情報を効果的に抽出できる。
Survival prediction is an important branch of cancer prognosis analysis. The model that predicts survival risk through TCGA genomics data can discover genes related to cancer and provide diagnosis and treatment recommendations based on patient characteristics. We found that deep learning models based on Cox proportional hazards often suffer from overfitting when dealing with high-throughput data. Moreover, we found that as the number of network layers increases, the experimental results will not get better, and network degradation will occur. Based on this problem, we propose a new framework based on Deep Residual Learning. Combine the ideas of Cox proportional hazards and Residual. And name it ResSurv. First, ResSurv is a feed-forward deep learning network stacked by multiple basic ResNet Blocks. In each ResNet Block, we add a Normalization Layer to prevent gradient disappearance and gradient explosion. Secondly, for the loss function of the neural network, we inherited the Cox proportional hazards methods, applied the semi-parametric of the CPH model to the neural network, combined with the partial likelihood model, established the loss function, and performed backpropagation and gradient update. Finally, we compared ResSurv networks of different depths and found that we can effectively extract high-dimensional features. Ablation experiments and comparative experiments prove that our model has reached SOTA(state of the art) in the field of deep learning, and our network can effectively extract deep information. | 翻訳日:2024-05-14 18:57:41 公開日:2024-05-11 |
# 不均一なフェデレーション学習のためのロバストモデルアグリゲーション:分析と最適化
Robust Model Aggregation for Heterogeneous Federated Learning: Analysis and Optimizations ( http://arxiv.org/abs/2405.06993v1 ) ライセンス: Link先を確認 | Yumeng Shao, Jun Li, Long Shi, Kang Wei, Ming Ding, Qianmu Li, Zengxiang Li, Wen Chen, Shi Jin, | (参考訳) 従来の同期フェデレーション学習(SFL)フレームワークは、不均衡なローカルデータサイズとクライアント側の多様な計算能力により、異種システムの性能劣化に悩まされる。
この問題に対処するため,非同期アグリゲーションによって性能損失を回復するために,非同期FL(AFL)と半非同期FLが提案されている。
しかし、非同期アグリゲーションは、ローカル更新とグローバルアップデートの一貫性の新たな問題を引き起こす。
従来のSFLとAFLの問題に触発されて、異種システムのための時間駆動型SFL(T-SFL)フレームワークを最初に提案する。
T-SFLの中核となる考え方は、サーバが異なるクライアントからモデルを集約し、各クライアントは定期的な時間間隔で様々な回数のイテレーションを行う、というものである。
T-SFLの学習性能を評価するため,大域的損失関数の上限を提供する。
さらに,発達した上界を最小化するために,アグリゲーション重みを最適化する。
そこで本研究では,反復回数が所定の閾値未満のクライアントから局所モデルを除去する識別モデル選択(DMS)アルゴリズムを開発した。
特に、このアルゴリズムは、各クライアントの集約重みがグローバルモデル更新への真の貢献を正確に反映することを保証し、システムの効率性と堅牢性を向上させる。
DMSアルゴリズムによるT-SFLの有効性を検証するため、MNIST、Cifar-10、Fashion-MNIST、SVHNなどの一般的なデータセットを用いて広範な実験を行った。
実験により,DMSアルゴリズムを用いたT-SFLは,最先端のAFLアルゴリズムよりも平均3倍の学習精度を達成しつつ,従来のSFLのレイテンシを50%削減できることが示された。
Conventional synchronous federated learning (SFL) frameworks suffer from performance degradation in heterogeneous systems due to imbalanced local data size and diverse computing power on the client side. To address this problem, asynchronous FL (AFL) and semi-asynchronous FL have been proposed to recover the performance loss by allowing asynchronous aggregation. However, asynchronous aggregation incurs a new problem of inconsistency between local updates and global updates. Motivated by the issues of conventional SFL and AFL, we first propose a time-driven SFL (T-SFL) framework for heterogeneous systems. The core idea of T-SFL is that the server aggregates the models from different clients, each with varying numbers of iterations, at regular time intervals. To evaluate the learning performance of T-SFL, we provide an upper bound on the global loss function. Further, we optimize the aggregation weights to minimize the developed upper bound. Then, we develop a discriminative model selection (DMS) algorithm that removes local models from clients whose number of iterations falls below a predetermined threshold. In particular, this algorithm ensures that each client's aggregation weight accurately reflects its true contribution to the global model update, thereby improving the efficiency and robustness of the system. To validate the effectiveness of T-SFL with the DMS algorithm, we conduct extensive experiments using several popular datasets including MNIST, Cifar-10, Fashion-MNIST, and SVHN. The experimental results demonstrate that T-SFL with the DMS algorithm can reduce the latency of conventional SFL by 50\%, while achieving an average 3\% improvement in learning accuracy over state-of-the-art AFL algorithms. | 翻訳日:2024-05-14 18:57:41 公開日:2024-05-11 |
# GRASP-GCN:分散シフトによるニューラルネットワーク探索のためのグラフ形状優先化
GRASP-GCN: Graph-Shape Prioritization for Neural Architecture Search under Distribution Shifts ( http://arxiv.org/abs/2405.06994v1 ) ライセンス: Link先を確認 | Sofia Casarin, Oswald Lanz, Sergio Escalera, | (参考訳) ニューラルアーキテクチャサーチ(NAS)法は、人間設計のネットワークよりもはるかに優れたネットワークを出力することを示した。
しかし、従来のNAS手法では、新しいデータセットごとにスクラッチから実行しなければならないため、計算コストが大きいため、単一のデータセットシナリオに対処することがほとんどである。
本研究では,予測器に基づくアルゴリズムに着目し,データ分散シフトに対処する際の予測性能を簡易かつ効率的に向上する手法を提案する。
我々は、ランダムに配線された検索空間上のKronecker-productを利用して、4つの異なるデータセットでトレーニングされたネットワークからなるNASベンチマークを作成する。
一般化能力を向上させるために,ニューラルネットワークの層形状を付加的に入力するグラフ畳み込みネットワークであるGRASP-GCNを提案する。
GRASP-GCNは、非収束精度でトレーニングされ、Cifar-10の3.3%の最先端を改善し、データ分散シフト時の一般化能力を高める。
Neural Architecture Search (NAS) methods have shown to output networks that largely outperform human-designed networks. However, conventional NAS methods have mostly tackled the single dataset scenario, incuring in a large computational cost as the procedure has to be run from scratch for every new dataset. In this work, we focus on predictor-based algorithms and propose a simple and efficient way of improving their prediction performance when dealing with data distribution shifts. We exploit the Kronecker-product on the randomly wired search-space and create a small NAS benchmark composed of networks trained over four different datasets. To improve the generalization abilities, we propose GRASP-GCN, a ranking Graph Convolutional Network that takes as additional input the shape of the layers of the neural networks. GRASP-GCN is trained with the not-at-convergence accuracies, and improves the state-of-the-art of 3.3 % for Cifar-10 and increasing moreover the generalization abilities under data distribution shift. | 翻訳日:2024-05-14 18:57:41 公開日:2024-05-11 |
# クロスドメイン・オーディオ・ビジュアル・デセプションのベンチマーク
Benchmarking Cross-Domain Audio-Visual Deception Detection ( http://arxiv.org/abs/2405.06995v1 ) ライセンス: Link先を確認 | Xiaobao Guo, Zitong Yu, Nithish Muthuchamy Selvaraj, Bingquan Shen, Adams Wai-Kin Kong, Alex C. Kot, | (参考訳) 自動偽造検出は、人間の真偽を正確に評価し、偽造行為を特定するのに不可欠である。
従来のコンタクトベースの技術、例えばポリグラフ装置は、個人の言明の正当性を決定するために生理的信号に依存している。
しかし、近年の自動偽造検出の進歩は、音声とビデオの両方から派生したマルチモーダル機能が、公開データセット上で人間の観察者より優れていることを証明している。
これらの肯定的な発見にもかかわらず、様々なシナリオにまたがる既存の音声・視覚的偽装検出手法の一般化可能性はほとんど未解明のままである。
このギャップを埋めるために、我々は、これらの手法が現実世界のシナリオでどのように利用されるかを評価することができる、最初のクロスドメインオーディオ・視覚的偽装検出ベンチマークを提示する。
我々は、シングル・ツー・シングル領域の一般化性能とマルチ・ツー・シングル領域の一般化性能を比較して、広く採用されている音声と視覚の特徴と異なるアーキテクチャをベンチマークに用いた。
本研究は、複数のソースドメインから得られるデータを用いてトレーニングを行うために、ドメイン間同時、ドメイン交代、ドメイン・バイ・ドメインを含む3種類のドメインサンプリング戦略を調査し、マルチ・シングル領域の一般化評価を行う。
さらに,本提案手法は,性能向上のためのアテンション・ミクサー融合法を提案し,新しいクロスドメイン・ベンチマークにより,音声・視覚的誤認検出の今後の研究が促進されると信じている。
プロトコルとソースコードは \href{https://github.com/Redaimao/cross_ Domain}{https://github.com/Redaimao/cross\_ domain\_DD} で入手できる。
Automated deception detection is crucial for assisting humans in accurately assessing truthfulness and identifying deceptive behavior. Conventional contact-based techniques, like polygraph devices, rely on physiological signals to determine the authenticity of an individual's statements. Nevertheless, recent developments in automated deception detection have demonstrated that multimodal features derived from both audio and video modalities may outperform human observers on publicly available datasets. Despite these positive findings, the generalizability of existing audio-visual deception detection approaches across different scenarios remains largely unexplored. To close this gap, we present the first cross-domain audio-visual deception detection benchmark, that enables us to assess how well these methods generalize for use in real-world scenarios. We used widely adopted audio and visual features and different architectures for benchmarking, comparing single-to-single and multi-to-single domain generalization performance. To further exploit the impacts using data from multiple source domains for training, we investigate three types of domain sampling strategies, including domain-simultaneous, domain-alternating, and domain-by-domain for multi-to-single domain generalization evaluation. Furthermore, we proposed the Attention-Mixer fusion method to improve performance, and we believe that this new cross-domain benchmark will facilitate future research in audio-visual deception detection. Protocols and source code are available at \href{https://github.com/Redaimao/cross_domain_DD}{https://github.com/Redaimao/cross\_domain\_DD}. | 翻訳日:2024-05-14 18:57:41 公開日:2024-05-11 |
# 大言語モデルにおける国籍バイアス - ChatGPT のケーススタディ
Quite Good, but Not Enough: Nationality Bias in Large Language Models -- A Case Study of ChatGPT ( http://arxiv.org/abs/2405.06996v1 ) ライセンス: Link先を確認 | Shucheng Zhu, Weikang Wang, Ying Liu, | (参考訳) 国籍は言語モデルの性能を高める重要な人口統計要素であるが、固有の偏見に関してはるかに精査されていない。
本研究では,テキスト生成のための大規模言語モデルであるChatGPT(GPT-3.5)の国籍バイアスについて検討する。
この研究は、195カ国、4つの温度設定、3つの異なるプロンプトタイプをカバーし、中国語と英語の国籍記述に関する4,680の談話を生み出している。
自動メトリクスは国籍バイアスの分析に使われ、ChatGPT自身とともに専門家アノテータは認識バイアスを評価した。
その結果,ChatGPTが生成する談話は,前者であるGPT-2と比較して,主に肯定的であった。
しかし、ネガティブな傾向が引き起こされると、時にネガティブな内容が生み出される。
ChatGPTは生成したテキストを中立とみなすが、人間のアノテーションが使用するのと同じペアワイズ比較アノテーションフレームワークに従えば、国籍バイアスに対する一貫した自己認識を示す。
結論として、ChatGPTが生成したテキストは友好的で肯定的なように見えるが、それらは現実世界の固有の国籍バイアスを反映している。
このバイアスは、さまざまな文化的視点を示すさまざまな言語バージョンのChatGPTによって異なる可能性がある。
この研究は、LSM内のバイアスの微妙で広汎な性質を強調し、さらなる精査の必要性を強調している。
While nationality is a pivotal demographic element that enhances the performance of language models, it has received far less scrutiny regarding inherent biases. This study investigates nationality bias in ChatGPT (GPT-3.5), a large language model (LLM) designed for text generation. The research covers 195 countries, 4 temperature settings, and 3 distinct prompt types, generating 4,680 discourses about nationality descriptions in Chinese and English. Automated metrics were used to analyze the nationality bias, and expert annotators alongside ChatGPT itself evaluated the perceived bias. The results show that ChatGPT's generated discourses are predominantly positive, especially compared to its predecessor, GPT-2. However, when prompted with negative inclinations, it occasionally produces negative content. Despite ChatGPT considering its generated text as neutral, it shows consistent self-awareness about nationality bias when subjected to the same pair-wise comparison annotation framework used by human annotators. In conclusion, while ChatGPT's generated texts seem friendly and positive, they reflect the inherent nationality biases in the real world. This bias may vary across different language versions of ChatGPT, indicating diverse cultural perspectives. The study highlights the subtle and pervasive nature of biases within LLMs, emphasizing the need for further scrutiny. | 翻訳日:2024-05-14 18:57:41 公開日:2024-05-11 |
# チャート上でのMLLMのタスクベースの有効性評価
Evaluating Task-based Effectiveness of MLLMs on Charts ( http://arxiv.org/abs/2405.07001v1 ) ライセンス: Link先を確認 | Yifan Wu, Lutao Yan, Yuyu Luo, Yunhai Wang, Nan Tang, | (参考訳) 本稿では,GPT-4Vはグラフ上の低レベルデータ解析タスクに有効か?
この目的のために、我々はまず89,388のクォーテット(チャート、タスク、質問、回答)からなるChartInsightsという名の大規模なデータセットをキュレートし、7つのチャートタイプで広く使用されている10の低レベルデータ分析タスクをカバーした。
まず、12のオープンソースモデルと6のクローズドソースモデルを含む18の高度なMLLMの能力と限界を理解するために、系統的な評価を行う。
標準的なテキストプロンプトアプローチから始めて、18個のMLLMの平均精度は36.17%である。
全てのモデルの中で、GPT-4Vは最高精度で56.13%に達する。
低レベルデータ解析タスクにおけるマルチモーダル大モデルの限界を理解するため、GPT-4Vの機能の詳細なテストを行うために様々な実験を設計した。
さらに、視覚要素の変更(例えば、色調の変更)や摂動の導入(例えば、画像ノイズの追加)など、チャートに対する視覚的変化が、GPT-4Vの性能に与える影響についても検討する。
第2に,12例の実験的検討を行った。
これらの結果は,GPT-4Vがチャートとの相互作用に革命をもたらす可能性を示し,人的分析ニーズとGPT-4Vの能力のギャップを明らかにすることを示唆している。
第3に、低レベル解析タスクに適した、Chain-of-Chartsという新しいテキストプロンプト戦略を提案し、モデル性能を24.36%向上させ、80.49%の精度を実現した。
さらに, GPT-4Vの注意を疑問関連視覚要素に向ける視覚的プロンプト戦略を導入することにより, さらに精度を83.83%向上させる。
本研究は,低レベルデータ解析タスクにおけるGPT-4Vの能力と限界に光を当てるだけでなく,今後の研究に有用な知見を提供する。
In this paper, we explore a forward-thinking question: Is GPT-4V effective at low-level data analysis tasks on charts? To this end, we first curate a large-scale dataset, named ChartInsights, consisting of 89,388 quartets (chart, task, question, answer) and covering 10 widely-used low-level data analysis tasks on 7 chart types. Firstly, we conduct systematic evaluations to understand the capabilities and limitations of 18 advanced MLLMs, which include 12 open-source models and 6 closed-source models. Starting with a standard textual prompt approach, the average accuracy rate across the 18 MLLMs is 36.17%. Among all the models, GPT-4V achieves the highest accuracy, reaching 56.13%. To understand the limitations of multimodal large models in low-level data analysis tasks, we have designed various experiments to conduct an in-depth test of capabilities of GPT-4V. We further investigate how visual modifications to charts, such as altering visual elements (e.g. changing color schemes) and introducing perturbations (e.g. adding image noise), affect performance of GPT-4V. Secondly, we present 12 experimental findings. These findings suggest potential of GPT-4V to revolutionize interaction with charts and uncover the gap between human analytic needs and capabilities of GPT-4V. Thirdly, we propose a novel textual prompt strategy, named Chain-of-Charts, tailored for low-level analysis tasks, which boosts model performance by 24.36%, resulting in an accuracy of 80.49%. Furthermore, by incorporating a visual prompt strategy that directs attention of GPT-4V to question-relevant visual elements, we further improve accuracy to 83.83%. Our study not only sheds light on the capabilities and limitations of GPT-4V in low-level data analysis tasks but also offers valuable insights for future research. | 翻訳日:2024-05-14 18:57:41 公開日:2024-05-11 |
# Stealthy Imitation: Reward-guided Environment-free Policy Stealing
Stealthy Imitation: Reward-guided Environment-free Policy Stealing ( http://arxiv.org/abs/2405.07004v1 ) ライセンス: Link先を確認 | Zhixiong Zhuang, Maria-Irina Nicolae, Mario Fritz, | (参考訳) 現代制御システムに不可欠な深層強化学習政策は、貴重な知的財産である。
これらのポリシーの開発には、ドメインの専門知識、シミュレーションの忠実さ、実世界の検証など、かなりのリソースが必要である。
これらのポリシは、ブラックボックスアクセスのみを使用して機能を複製することを目的とした、モデルステルス攻撃に対して、潜在的に脆弱である。
本稿では,環境や入力範囲の知識を使わずにポリシーを盗むための最初の攻撃であるStealthy Imitationを提案する。
この設定は、以前のモデルステルス法では考慮されていない。
被害者の入力状態の分布にアクセスできないため、Stealthy Imitationはそれを近似できる報酬モデルに適合する。
攻撃クエリの分布が被害者のものと一致した場合, 被害者の方針を模倣することが困難であることを示す。
我々は、多種多様な高次元制御タスクに対する我々のアプローチを評価し、ポリシーステルスに適応したデータフリーアプローチを一貫して上回っている。
最後に,攻撃の有効性を著しく低下させる対策を提案する。
Deep reinforcement learning policies, which are integral to modern control systems, represent valuable intellectual property. The development of these policies demands considerable resources, such as domain expertise, simulation fidelity, and real-world validation. These policies are potentially vulnerable to model stealing attacks, which aim to replicate their functionality using only black-box access. In this paper, we propose Stealthy Imitation, the first attack designed to steal policies without access to the environment or knowledge of the input range. This setup has not been considered by previous model stealing methods. Lacking access to the victim's input states distribution, Stealthy Imitation fits a reward model that allows to approximate it. We show that the victim policy is harder to imitate when the distribution of the attack queries matches that of the victim. We evaluate our approach across diverse, high-dimensional control tasks and consistently outperform prior data-free approaches adapted for policy stealing. Lastly, we propose a countermeasure that significantly diminishes the effectiveness of the attack. | 翻訳日:2024-05-14 18:57:41 公開日:2024-05-11 |
# マンダリンにおける単語固有の音素認識
Word-specific tonal realizations in Mandarin ( http://arxiv.org/abs/2405.07006v1 ) ライセンス: Link先を確認 | Yu-Ying Chuang, Melanie J. Bell, Yu-Hsiang Tseng, R. Harald Baayen, | (参考訳) マンダリン2文字単語のピッチ輪郭は、音声率、隣接音との共調、セグメントメイクアップ、予測可能性などの要因によって課される調音制約と相互作用して、構成単文字単語の基本音によって形成されると一般的に理解されている。
本研究は,音素認識が単語の意味によって部分的に決定されることを示唆している。
まず,台湾の自発会話コーパスをベースとして,一般化した付加的回帰モデルを用いて,話者と文脈の影響を制御した上で,単語型が従来確立されていたすべての単語形式関連予測器よりもピッチ実現の強い予測器であることを,アップフォールトーンパターンに着目した。
重要なことに、文脈における意味情報の追加は予測精度をさらに向上させる。
次に、文脈固有単語埋め込みを用いた計算モデルを用いて、トークン固有ピッチパターンが保持データ上で50%の精度で単語タイプを予測し、文脈依存のトークン固有埋め込みが30%の精度でピッチパターンの形状を予測できることを示す。
これらの精度は,単語のピッチ輪郭と意味の関係が言語ユーザにとって十分に強く機能することが示唆されている。
これらの経験的発見の理論的意義を論じる。
The pitch contours of Mandarin two-character words are generally understood as being shaped by the underlying tones of the constituent single-character words, in interaction with articulatory constraints imposed by factors such as speech rate, co-articulation with adjacent tones, segmental make-up, and predictability. This study shows that tonal realization is also partially determined by words' meanings. We first show, on the basis of a Taiwan corpus of spontaneous conversations, using the generalized additive regression model, and focusing on the rise-fall tone pattern, that after controlling for effects of speaker and context, word type is a stronger predictor of pitch realization than all the previously established word-form related predictors combined. Importantly, the addition of information about meaning in context improves prediction accuracy even further. We then proceed to show, using computational modeling with context-specific word embeddings, that token-specific pitch contours predict word type with 50% accuracy on held-out data, and that context-sensitive, token-specific embeddings can predict the shape of pitch contours with 30% accuracy. These accuracies, which are an order of magnitude above chance level, suggest that the relation between words' pitch contours and their meanings are sufficiently strong to be functional for language users. The theoretical implications of these empirical findings are discussed. | 翻訳日:2024-05-14 18:57:41 公開日:2024-05-11 |
# 有限場上の非特異行列分岐数計算アルゴリズム
A New Algorithm for Computing Branch Number of Non-Singular Matrices over Finite Fields ( http://arxiv.org/abs/2405.07007v1 ) ライセンス: Link先を確認 | P. R. Mishra, Yogesh Kumar, Susanta Samanta, Atul Gaur, | (参考訳) 線形変換の分岐数の概念は、線形および微分暗号解析の両方に不可欠である。
状態差やリニアマスクにおけるゼロでない要素の数は、アクティブなSボックスと直接相関する。
微分または線形分岐数は、SPN暗号の2つの連続するラウンドにおいて、それぞれ微分または線形暗号解析のために、最小の活性S-ボックス数を示す。
本稿では,有限体上の非特異行列の分岐数を計算するための新しいアルゴリズムを提案する。
このアルゴリズムは、既存の古典的手法に基づいているが、前者に比べて計算の複雑さが改善されている。
本稿では,提案アルゴリズムと古典的アプローチの比較研究を行い,アルゴリズムの複雑さを解析的に推定する。
解析の結果,アルゴリズムの計算複雑性は古典的アプローチの平方根であることが判明した。
The notion of branch numbers of a linear transformation is crucial for both linear and differential cryptanalysis. The number of non-zero elements in a state difference or linear mask directly correlates with the active S-Boxes. The differential or linear branch number indicates the minimum number of active S-Boxes in two consecutive rounds of an SPN cipher, specifically for differential or linear cryptanalysis, respectively. This paper presents a new algorithm for computing the branch number of non-singular matrices over finite fields. The algorithm is based on the existing classical method but demonstrates improved computational complexity compared to its predecessor. We conduct a comparative study of the proposed algorithm and the classical approach, providing an analytical estimation of the algorithm's complexity. Our analysis reveals that the computational complexity of our algorithm is the square root of that of the classical approach. | 翻訳日:2024-05-14 18:57:41 公開日:2024-05-11 |
# 長距離相互作用をもつ多体相互作用系における量子探索
Quantum search in many-body interacting system with long-range interaction ( http://arxiv.org/abs/2405.07009v1 ) ライセンス: Link先を確認 | Fan Xing, Yan Wei, Zeyang Liao, | (参考訳) 連続時間量子ウォークは、量子探索問題の代替方法を提供する。
初期の研究では、いくつかの合成ハミルトニアンに二次的なスピードアップが存在することが確認されているが、実際の物理系に二次的なスピードアップが存在するかどうかは不明である。
本稿では、光格子に閉じ込められたり、帯縁付近で導波路に結合された1次元原子配列や、良好な空洞に分散結合された1次元原子配列を含む、量子探索を実現するための良い候補となる長距離原子-原子相互作用を持つ3つの物理系について検討する。
これら3つのシステムは、散逸がなければ、ほぼ最適の量子探索を提供することができる。
しかし、散逸が後者の2つの系(すなわち導波管-QEDおよび共振器-QED系)のみと見なされる場合、後者の2つの系は、遠く離れていても原子-原子相互作用を著しく向上させることができ、スペクトルギャップが大きくなり、探索時間と散逸の影響を著しく低減できるため、高い成功確率を有する。
そこで本研究では,ノイズの多い中間量子時代における実物理系における量子探索の実現に有用な方法を提案する。
Continuous-time quantum walks provide an alternative method for quantum search problems. Most of the earlier studies confirmed that quadratic speedup exists in some synthetic Hamiltonians, but whether there is quadratic speedup in real physical systems is elusive. Here, we investigate three physical systems with long-range atom-atom interaction which are possible good candidates for realizing the quantum search, including one-dimensional atom arrays either trapped in an optical lattice or coupled to waveguide near band edge or dispersively coupled to a good cavity. We find that all three systems can provide near-optimal quantum search if there is no dissipation. However, if the dissipation is considered only the latter two systems (i.e., waveguide-QED and cavity-QED systems) can still have high success probabilities because the latter two systems can significantly enhance the atom-atom interaction even if they are far apart and the spectra gap can be much larger which can reduce the search time and the effects of dissipation significantly. Our studies here can provide helpful instructions for realizing quantum search in real physical systems in the noisy intermediate-scale quantum era. | 翻訳日:2024-05-14 18:57:41 公開日:2024-05-11 |
# 機械学習と動的解析を用いた地球工学と気候問題への公衆の注意の解読
Deciphering public attention to geoengineering and climate issues using machine learning and dynamic analysis ( http://arxiv.org/abs/2405.07010v1 ) ライセンス: Link先を確認 | Ramit Debnath, Pengyu Zhang, Tianzhu Qin, R. Michael Alvarez, Shaun D. Fitzgerald, | (参考訳) 気候変動と戦うためにジオエンジニアリングを使うことに関する議論が強まるにつれ、地球工学の研究、開発、そして潜在的な展開に対する人々の見解を深く理解することが不可欠である。
包括的データ駆動調査を通じて,地球工学に対する一般の関心を喚起するニュースの種類について検討する。
われわれは、BBCとNew York Timesの30,773の英語ニュース記事と、2018年から2022年にかけてのGoogle Trendsのデータを組み合わせて、地球工学に対する大衆の関心が、より広い気候問題に関するニュースに反応してどのように変動するかを探った。
BERTに基づくトピックモデリング,感情分析,時系列回帰モデルを用いて,エネルギー関連ニュースの肯定的な感情がジオエンジニアリングへの関心を高めるための良い予測要因であることがわかった。
本研究は,地球工学と気候活動への公的な関与が一様ではないことを示唆し,エネルギー・災害・政治に関する気候ニュースなど,時間とともに関心を成す上で強力なトピックがいくつかあることを示唆する。
これらのパターンを理解することは、科学者、政策立案者、教育者にとって、公衆と関わり、新興気候技術に関する対話を促進する効果的な戦略を構築するために不可欠である。
As the conversation around using geoengineering to combat climate change intensifies, it is imperative to engage the public and deeply understand their perspectives on geoengineering research, development, and potential deployment. Through a comprehensive data-driven investigation, this paper explores the types of news that captivate public interest in geoengineering. We delved into 30,773 English-language news articles from the BBC and the New York Times, combined with Google Trends data spanning 2018 to 2022, to explore how public interest in geoengineering fluctuates in response to news coverage of broader climate issues. Using BERT-based topic modeling, sentiment analysis, and time-series regression models, we found that positive sentiment in energy-related news serves as a good predictor of heightened public interest in geoengineering, a trend that persists over time. Our findings suggest that public engagement with geoengineering and climate action is not uniform, with some topics being more potent in shaping interest over time, such as climate news related to energy, disasters, and politics. Understanding these patterns is crucial for scientists, policymakers, and educators aiming to craft effective strategies for engaging with the public and fostering dialogue around emerging climate technologies. | 翻訳日:2024-05-14 18:57:41 公開日:2024-05-11 |
# 感性属性の絡み合いによる公正なグラフ表現学習
Fair Graph Representation Learning via Sensitive Attribute Disentanglement ( http://arxiv.org/abs/2405.07011v1 ) ライセンス: Link先を確認 | Yuchang Zhu, Jintang Li, Zibin Zheng, Liang Chen, | (参考訳) グラフニューラルネットワーク(GNN)に対するグループフェアネス(グループフェアネス)は、センシティブな属性(例えば、人種や性別)によって定義された特定のグループを好ましくも害もしないアルゴリズム的な決定を強調している。
特に、グループフェアネスの目的は、GNNによる決定がセンシティブな属性から独立していることを保証することである。
この目的を達成するために、既存のほとんどのアプローチでは、ノード表現やアルゴリズムによる決定において、機密属性情報を排除している。
しかし、このような方法では、機密属性と固有の相関関係からタスク関連情報を排除し、ユーティリティーの犠牲になる可能性がある。
本研究では,タスク関連情報を保存しながら,GNNの公平性を向上することに焦点を当て,FairSADという公正なGNNフレームワークを提案する。
センシティブな属性情報を排除するのではなく、FairSADは、センシティブな属性関連情報を独立したコンポーネントに分離し、その影響を軽減することで、GNNの公正性を高める。
さらに、FairSADはチャネルマスキング機構を使用して、感度特性関連成分を適応的に識別し、その後にデコレーションする。
全体として、FairSADは機密属性を除去するのではなく、GNN結果に対する機密属性の影響を最小限に抑え、機密属性に関連するタスク関連情報を保存する。
さらに、複数の実世界のデータセットで実施された実験により、FairSADは他の最先端の手法よりも、公平性と実用性の両方の面で大きな差があることが示されている。
ソースコードはhttps://github.com/ZzoomD/FairSAD.comで公開されています。
Group fairness for Graph Neural Networks (GNNs), which emphasizes algorithmic decisions neither favoring nor harming certain groups defined by sensitive attributes (e.g., race and gender), has gained considerable attention. In particular, the objective of group fairness is to ensure that the decisions made by GNNs are independent of the sensitive attribute. To achieve this objective, most existing approaches involve eliminating sensitive attribute information in node representations or algorithmic decisions. However, such ways may also eliminate task-related information due to its inherent correlation with the sensitive attribute, leading to a sacrifice in utility. In this work, we focus on improving the fairness of GNNs while preserving task-related information and propose a fair GNN framework named FairSAD. Instead of eliminating sensitive attribute information, FairSAD enhances the fairness of GNNs via Sensitive Attribute Disentanglement (SAD), which separates the sensitive attribute-related information into an independent component to mitigate its impact. Additionally, FairSAD utilizes a channel masking mechanism to adaptively identify the sensitive attribute-related component and subsequently decorrelates it. Overall, FairSAD minimizes the impact of the sensitive attribute on GNN outcomes rather than eliminating sensitive attributes, thereby preserving task-related information associated with the sensitive attribute. Furthermore, experiments conducted on several real-world datasets demonstrate that FairSAD outperforms other state-of-the-art methods by a significant margin in terms of both fairness and utility performance. Our source code is available at https://github.com/ZzoomD/FairSAD. | 翻訳日:2024-05-14 18:57:41 公開日:2024-05-11 |
# 光電場空間超解像における劣化推定の組み入れ
Incorporating Degradation Estimation in Light Field Spatial Super-Resolution ( http://arxiv.org/abs/2405.07012v1 ) ライセンス: Link先を確認 | Zeyu Xiao, Zhiwei Xiong, | (参考訳) 光電場超解像(SR)の最近の進歩は印象的な結果をもたらした。
しかし、実際には、多くの既存手法は、複雑な劣化を伴う現実のシナリオにおいて、その堅牢性を阻害するバイコビックダウンサンプリングのような、固定された劣化モデルを仮定することで制限されている。
この制限に対処するため,さまざまな劣化型を扱うために,明示的な劣化推定を組み込んだ効果的なブラインド光場SR法LF-DESTを提案する。
LF-DESTは、劣化推定と光場復元の2つの主成分から構成される。
前者は低分解能劣化光場からボケ核とノイズマップを同時に推定し、後者は推定劣化に基づいて超解光場を生成する。
特に, 画像情報と分解表現をインテリジェントに組み合わせ, 多様な劣化型を効果的に扱えるような, 変調および選択的融合モジュールを導入する。
ベンチマークデータセットに対する広範な実験を行い、光場SRにおける様々な劣化シナリオにおいてLF-DESTが優れた性能を発揮することを示した。
Recent advancements in light field super-resolution (SR) have yielded impressive results. In practice, however, many existing methods are limited by assuming fixed degradation models, such as bicubic downsampling, which hinders their robustness in real-world scenarios with complex degradations. To address this limitation, we present LF-DEST, an effective blind Light Field SR method that incorporates explicit Degradation Estimation to handle various degradation types. LF-DEST consists of two primary components: degradation estimation and light field restoration. The former concurrently estimates blur kernels and noise maps from low-resolution degraded light fields, while the latter generates super-resolved light fields based on the estimated degradations. Notably, we introduce a modulated and selective fusion module that intelligently combines degradation representations with image information, allowing for effective handling of diverse degradation types. We conduct extensive experiments on benchmark datasets, demonstrating that LF-DEST achieves superior performance across a variety of degradation scenarios in light field SR. | 翻訳日:2024-05-14 18:57:41 公開日:2024-05-11 |
# シャドウフリーの会員推論攻撃:リコメンダーシステムは思った以上に危険
Shadow-Free Membership Inference Attacks: Recommender Systems Are More Vulnerable Than You Thought ( http://arxiv.org/abs/2405.07018v1 ) ライセンス: Link先を確認 | Xiaoxiao Chi, Xuyun Zhang, Yan Wang, Lianyong Qi, Amin Beheshti, Xiaolong Xu, Kim-Kwang Raymond Choo, Shuo Wang, Hongsheng Hu, | (参考訳) Recommender システムは、多くのアプリケーションでうまく適用されている。
それにもかかわらず、最近の研究では、リコメンダシステムは、メンバーシップ推論攻撃(MIA)に弱いことが示されており、ユーザのメンバシッププライバシの漏洩につながっている。
しかし、既存のMIAは、攻撃者が訓練データ分布とターゲットレコメンデータシステムのモデルアーキテクチャの知識を欠いている場合、大きな性能低下を被っている。
推薦システムのプライバシリスクをよりよく理解するために,ユーザによるメンバシップ推論のレコメンデーションを直接活用するシャドーフリーMIAを提案する。
シャドウトレーニングがなければ、攻撃者にターゲットレコメンデータシステムへのブラックボックスアクセスのみを与えるプラクティスシナリオにおいて、提案した攻撃はMIAを効率的かつ効果的に実行することができる。
提案攻撃は,過去のインタラクションが使用される場合,レコメンダシステムがユーザのレコメンデーションをパーソナライズする直感を利用する。
これにより、アタッカーは、リコメンデーションがインタラクションや一般的な人気アイテムとより類似しているかどうかを判断することで、メンバーシップのプライバシを推測することができる。
様々なレコメンデーションシステムでベンチマークデータセットを広範囲に実験する。
目立ったことに、我々の攻撃は、ベースラインよりも低い偽陽性率で、計算コストをはるかに低くして、はるかに優れた攻撃精度を達成する。
Recommender systems have been successfully applied in many applications. Nonetheless, recent studies demonstrate that recommender systems are vulnerable to membership inference attacks (MIAs), leading to the leakage of users' membership privacy. However, existing MIAs relying on shadow training suffer a large performance drop when the attacker lacks knowledge of the training data distribution and the model architecture of the target recommender system. To better understand the privacy risks of recommender systems, we propose shadow-free MIAs that directly leverage a user's recommendations for membership inference. Without shadow training, the proposed attack can conduct MIAs efficiently and effectively under a practice scenario where the attacker is given only black-box access to the target recommender system. The proposed attack leverages an intuition that the recommender system personalizes a user's recommendations if his historical interactions are used by it. Thus, an attacker can infer membership privacy by determining whether the recommendations are more similar to the interactions or the general popular items. We conduct extensive experiments on benchmark datasets across various recommender systems. Remarkably, our attack achieves far better attack accuracy with low false positive rates than baselines while with a much lower computational cost. | 翻訳日:2024-05-14 18:57:41 公開日:2024-05-11 |
# 局所微分プライバシーを用いた周波数分布の適応的オンラインベイズ推定
Adaptive Online Bayesian Estimation of Frequency Distributions with Local Differential Privacy ( http://arxiv.org/abs/2405.07020v1 ) ライセンス: Link先を確認 | Soner Aydin, Sinan Yildirim, | (参考訳) 本研究では, 局所微分プライバシー(LDP)フレームワークの下で, 有限個のカテゴリの周波数分布を適応的かつオンラインに推定するための新しいベイズ的手法を提案する。
提案アルゴリズムは, 後方サンプリングによるベイズパラメータ推定を行い, 得られた後方サンプルに基づいて, LDPのランダム化機構を適用する。
本稿では,カテゴリのサブセットを入力として使用し,選択したサブセットと真の周波数分布に依存するLCPのランダム化機構を提案する。
後部サンプルを周波数分布の推定として使用することにより、アルゴリズムは、次のユーザの民営化応答の有用性を最大化するために、計算的に抽出可能なサブセット選択ステップを実行する。
本稿では,魚情報行列,全変動距離,情報エントロピーなど,よく知られた情報メトリクスに関連するいくつかのユーティリティ機能を提案する。
これらのユーティリティメトリクスのそれぞれを、計算の複雑さの観点から比較する。
計算効率の良いマルコフ連鎖モンテカルロ法である後方サンプリングに確率勾配ランゲヴィン力学を用いる。
我々はそれを理論的に分析する。
一 アルゴリズムが目的とする後続分布は、近似後続サンプリングであっても真のパラメータに収束し、
(II) 後続サンプリングが正確に実行される場合, アルゴリズムは高い確率で最適部分集合を選択する。
また,プライバシーパラメータと人口分布パラメータの組み合わせによる実験条件下での非適応的および半適応的アプローチと比較し,アルゴリズムの推定精度を実証的に示す数値結果も提供する。
We propose a novel Bayesian approach for the adaptive and online estimation of the frequency distribution of a finite number of categories under the local differential privacy (LDP) framework. The proposed algorithm performs Bayesian parameter estimation via posterior sampling and adapts the randomization mechanism for LDP based on the obtained posterior samples. We propose a randomized mechanism for LDP which uses a subset of categories as an input and whose performance depends on the selected subset and the true frequency distribution. By using the posterior sample as an estimate of the frequency distribution, the algorithm performs a computationally tractable subset selection step to maximize the utility of the privatized response of the next user. We propose several utility functions related to well-known information metrics, such as (but not limited to) Fisher information matrix, total variation distance, and information entropy. We compare each of these utility metrics in terms of their computational complexity. We employ stochastic gradient Langevin dynamics for posterior sampling, a computationally efficient approximate Markov chain Monte Carlo method. We provide a theoretical analysis showing that (i) the posterior distribution targeted by the algorithm converges to the true parameter even for approximate posterior sampling, and (ii) the algorithm selects the optimal subset with high probability if posterior sampling is performed exactly. We also provide numerical results that empirically demonstrate the estimation accuracy of our algorithm where we compare it with nonadaptive and semi-adaptive approaches under experimental settings with various combinations of privacy parameters and population distribution parameters. | 翻訳日:2024-05-14 18:47:31 公開日:2024-05-11 |
# DTMamba : 時系列予測のための双対マンバ
DTMamba : Dual Twin Mamba for Time Series Forecasting ( http://arxiv.org/abs/2405.07022v1 ) ライセンス: Link先を確認 | Zexue Wu, Yifeng Gong, Aoqian Zhang, | (参考訳) 時系列データ予測タスクには,Mambaモデルを用い,実験結果から,本モデルの有効性が示唆された。
We utilized the Mamba model for time series data prediction tasks, and the experimental results indicate that our model performs well. | 翻訳日:2024-05-14 18:47:31 公開日:2024-05-11 |
# 適応指向性勾配畳み込みによる高能率実世界の超解像
Efficient Real-world Image Super-Resolution Via Adaptive Directional Gradient Convolution ( http://arxiv.org/abs/2405.07023v1 ) ライセンス: Link先を確認 | Long Peng, Yang Cao, Renjing Pei, Wenbo Li, Jiaming Guo, Xueyang Fu, Yang Wang, Zheng-Jun Zha, | (参考訳) リアルSRは、複数の分解因子の影響を緩和しながら、細部が豊富な高解像度画像を生成する。
既存の手法は細部回復において顕著な成果を上げてきたが、強度に基づく線形重み付け特徴抽出法により、複雑な勾配配置を持つ領域に対処する場合は依然として不足している。
さらに、実際のLRにおける撮像過程における劣化キューによって導入された確率的アーティファクトは、全体像詳細の障害を増大させ、さらに本質的な勾配配置の知覚を複雑にする。
これらの課題に対処するために、カーネルのカーネル内での微分演算を革新的に導入し、いくつかの学習可能な方向勾配畳み込みを開発する。
これらの畳み込みは、新しい線形重み付け機構と平行して、適応指向性勾配畳み込み(Adaptive Directional Gradient Convolution, DGConv)を形成する。
DGConvと組み合わせることで、DGConvのリッチな表現能力を維持しつつ、計算コストを単一のVanilla Convolution (VConv) と一致させつつ、新たな等価パラメータ融合法を考案する。
DGConvの優位性をよりよく活用するために,より単純な積み重ねによるリアルSR用DGPNetの作成を念頭に検討しながら,テクスチャとコントラストの強化を積極的にバランスさせる適応情報相互作用ブロック(AIIBlock)を開発した。
提案手法の有効性と有効性を明らかにするために,3つの公開データセットを対象とした15のSOTA手法との比較を行った。
Real-SR endeavors to produce high-resolution images with rich details while mitigating the impact of multiple degradation factors. Although existing methods have achieved impressive achievements in detail recovery, they still fall short when addressing regions with complex gradient arrangements due to the intensity-based linear weighting feature extraction manner. Moreover, the stochastic artifacts introduced by degradation cues during the imaging process in real LR increase the disorder of the overall image details, further complicating the perception of intrinsic gradient arrangement. To address these challenges, we innovatively introduce kernel-wise differential operations within the convolutional kernel and develop several learnable directional gradient convolutions. These convolutions are integrated in parallel with a novel linear weighting mechanism to form an Adaptive Directional Gradient Convolution (DGConv), which adaptively weights and fuses the basic directional gradients to improve the gradient arrangement perception capability for both regular and irregular textures. Coupled with DGConv, we further devise a novel equivalent parameter fusion method for DGConv that maintains its rich representational capabilities while keeping computational costs consistent with a single Vanilla Convolution (VConv), enabling DGConv to improve the performance of existing super-resolution networks without incurring additional computational expenses. To better leverage the superiority of DGConv, we further develop an Adaptive Information Interaction Block (AIIBlock) to adeptly balance the enhancement of texture and contrast while meticulously investigating the interdependencies, culminating in the creation of a DGPNet for Real-SR through simple stacking. Comparative results with 15 SOTA methods across three public datasets underscore the effectiveness and efficiency of our proposed approach. | 翻訳日:2024-05-14 18:47:31 公開日:2024-05-11 |
# 超複雑深層学習における誘導的ビアーゼ
Demystifying the Hypercomplex: Inductive Biases in Hypercomplex Deep Learning ( http://arxiv.org/abs/2405.07024v1 ) ライセンス: Link先を確認 | Danilo Comminiello, Eleonora Grassucci, Danilo P. Mandic, Aurelio Uncini, | (参考訳) 超複素代数は、実ベクトル空間上の除算代数の利点と実世界の3Dおよび4Dパラダイムにおける多次元信号を扱う場合の優れた結果により、近年、ディープラーニングの分野で注目されている。
本稿では,超複雑深層学習手法がなぜ成功し,その可能性をどのように活用するのかを理解するためのロードマップとして,基礎的な枠組みを提供する。
このような理論的な枠組みは、帰納的バイアス、すなわち、より効率的で正確な解へと学習プロセスを導くための訓練アルゴリズムに組み込まれた仮定、性質、制約の集合という観点で説明される。
複素数を拡張して多種多様な数やデータ構造を包含する超複素領域において、特定の帰納バイアスを導出できることを示す。
これらのバイアスは、これらの領域の特徴的な性質や多次元および多モード信号の複素構造を管理するのに有効である。
この超複雑深層学習の新たな視点は、このような手法をデミスティフィケートし、その可能性を明らかにすることを約束し、この方法では、多次元信号処理のための従来の実数値深層学習の代替手段として、超複雑モデルを促進する。
Hypercomplex algebras have recently been gaining prominence in the field of deep learning owing to the advantages of their division algebras over real vector spaces and their superior results when dealing with multidimensional signals in real-world 3D and 4D paradigms. This paper provides a foundational framework that serves as a roadmap for understanding why hypercomplex deep learning methods are so successful and how their potential can be exploited. Such a theoretical framework is described in terms of inductive bias, i.e., a collection of assumptions, properties, and constraints that are built into training algorithms to guide their learning process toward more efficient and accurate solutions. We show that it is possible to derive specific inductive biases in the hypercomplex domains, which extend complex numbers to encompass diverse numbers and data structures. These biases prove effective in managing the distinctive properties of these domains, as well as the complex structures of multidimensional and multimodal signals. This novel perspective for hypercomplex deep learning promises to both demystify this class of methods and clarify their potential, under a unifying framework, and in this way promotes hypercomplex models as viable alternatives to traditional real-valued deep learning for multidimensional signal processing. | 翻訳日:2024-05-14 18:47:31 公開日:2024-05-11 |
# TD-NeRF:ジョイントカメラポースとニューラルラジアンスフィールド最適化に先立つ新しい切り裂き深さ
TD-NeRF: Novel Truncated Depth Prior for Joint Camera Pose and Neural Radiance Field Optimization ( http://arxiv.org/abs/2405.07027v1 ) ライセンス: Link先を確認 | Zhen Tan, Zongtan Zhou, Yangbing Ge, Zi Wang, Xieyuanli Chen, Dewen Hu, | (参考訳) 正確なカメラポーズへの依存は、3D再構成とSLAMタスクのためのNeural Radiance Fields(NeRF)モデルを広く展開する上で大きな障壁となる。
既存の手法では、カメラのポーズを協調的に最適化するために単眼深度前処理を導入し、NeRFは奥行き前処理を完全に活用できず、固有のノイズの影響を無視する。
本稿では,未知のカメラポーズからNeRFをトレーニングするための新しいアプローチであるTrncated Depth NeRF(TD-NeRF)を提案する。
我々のアプローチは、三つの重要な進歩を通して、単分子深度を明示的に活用する。
1) 提案手法では, 提案手法の収束速度とポーズ推定精度を向上させるため, トランカット正規分布に基づく新しい深度線サンプリング手法を提案する。
2) 局所的なミニマを回避し, 深度幾何学を洗練させるため, 深度精度を徐々に向上させる粗大な訓練戦略を導入する。
3) より堅牢なフレーム間制約を提案し, トレーニング中の奥行き雑音に対する堅牢性を高める。
3つのデータセットによる実験結果から,TD-NeRFはカメラポーズとNeRFの共同最適化において優れた性能を示し,従来よりも優れ,より正確な深度形状を生成することがわかった。
本手法の実装はhttps://github.com/nubot-nudt/TD-NeRFで公開された。
The reliance on accurate camera poses is a significant barrier to the widespread deployment of Neural Radiance Fields (NeRF) models for 3D reconstruction and SLAM tasks. The existing method introduces monocular depth priors to jointly optimize the camera poses and NeRF, which fails to fully exploit the depth priors and neglects the impact of their inherent noise. In this paper, we propose Truncated Depth NeRF (TD-NeRF), a novel approach that enables training NeRF from unknown camera poses - by jointly optimizing learnable parameters of the radiance field and camera poses. Our approach explicitly utilizes monocular depth priors through three key advancements: 1) we propose a novel depth-based ray sampling strategy based on the truncated normal distribution, which improves the convergence speed and accuracy of pose estimation; 2) to circumvent local minima and refine depth geometry, we introduce a coarse-to-fine training strategy that progressively improves the depth precision; 3) we propose a more robust inter-frame point constraint that enhances robustness against depth noise during training. The experimental results on three datasets demonstrate that TD-NeRF achieves superior performance in the joint optimization of camera pose and NeRF, surpassing prior works, and generates more accurate depth geometry. The implementation of our method has been released at https://github.com/nubot-nudt/TD-NeRF. | 翻訳日:2024-05-14 18:47:31 公開日:2024-05-11 |
# Lasso RidgeベースのXGBoostとDeep_LSTMヘルプテニスプレーヤーのパフォーマンス向上
Lasso Ridge based XGBoost and Deep_LSTM Help Tennis Players Perform better ( http://arxiv.org/abs/2405.07030v1 ) ライセンス: Link先を確認 | Wankang Zhai, Yuhan Wang, | (参考訳) テニスの試合における運動量とゲームのゆらぎのダイナミクスを理解することは、試合結果の予測と選手のパフォーマンス向上に不可欠である。
本研究では,2023年ウィンブルドン決勝のデータセットを用いて,これらの要因を包括的に分析する。
Ini-tially, we developed a slide-window-based score model to evaluate player performance, ac-counting for the influence of serve dominance through a serve decay factor。
さらに,ラッソリッジをベースとしたXGBoostという新しい手法を導入し,運動量効果を定量化し,正規化による過度な適合を緩和しつつ,XGBoostの予測力を向上する。
実験により,一致結果の予測において94%の精度を達成し,勝利率に影響を及ぼす要因を同定した。
次に、LSTM_Deepモデルを用いて、ゲーム変動を定量化するための勝利率アルゴリズムの導出法を提案する。
本モデルでは,運動量の時間相関を効果的に捉え,平均2乗誤差は0.036から0.064の範囲である。
さらに,MAMLを用いたメタラーニングを用いて,ピンポンマッチの結果を予測する。
本研究は,運動量動態とゲームゆらぎに着目し,スポーツ分析や選手のトレーニング戦略に影響を及ぼすことを示す。
Understanding the dynamics of momentum and game fluctuation in tennis matches is cru-cial for predicting match outcomes and enhancing player performance. In this study, we present a comprehensive analysis of these factors using a dataset from the 2023 Wimbledon final. Ini-tially, we develop a sliding-window-based scoring model to assess player performance, ac-counting for the influence of serving dominance through a serve decay factor. Additionally, we introduce a novel approach, Lasso-Ridge-based XGBoost, to quantify momentum effects, lev-eraging the predictive power of XGBoost while mitigating overfitting through regularization. Through experimentation, we achieve an accuracy of 94% in predicting match outcomes, iden-tifying key factors influencing winning rates. Subsequently, we propose a Derivative of the winning rate algorithm to quantify game fluctuation, employing an LSTM_Deep model to pre-dict fluctuation scores. Our model effectively captures temporal correlations in momentum fea-tures, yielding mean squared errors ranging from 0.036 to 0.064. Furthermore, we explore me-ta-learning using MAML to transfer our model to predict outcomes in ping-pong matches, though results indicate a comparative performance decline. Our findings provide valuable in-sights into momentum dynamics and game fluctuation, offering implications for sports analytics and player training strategies. | 翻訳日:2024-05-14 18:47:31 公開日:2024-05-11 |
# 大規模ビデオオブジェクトセグメンテーションにおけるグローバルモーション理解
Global Motion Understanding in Large-Scale Video Object Segmentation ( http://arxiv.org/abs/2405.07031v1 ) ライセンス: Link先を確認 | Volodymyr Fedynyak, Yaroslav Romanus, Oles Dobosevych, Igor Babin, Roman Riazantsev, | (参考訳) 本稿では,ビデオ理解の他の領域からの知識を大規模学習と組み合わせることで,複雑な状況下でのVOS(Video Object Segmentation)の堅牢性を向上できることを示す。
すなわち,大規模な半教師付きビデオオブジェクトセグメンテーションを改善するために,シーンのグローバルな動きの知識を統合することに集中する。
VOSの以前の研究は、主に意味的特徴と文脈的特徴を直接比較して、現在のフレームと過去のフレームの密なマッチングを実行し、実際のモーション構造を通り過ぎている。
一方,オプティカルフロー推定タスクはシーンの運動場を近似することを目的としており,すべてのペアの類似性探索において通常発見できないグローバルな動きパターンを明らかにする。
本稿では、動作理解における既存の知識を活用して、よりスムーズな伝搬とより正確なマッチングを行う、半教師付きビデオオブジェクトセグメンテーションのためのアーキテクチャであるWarpFormerを提案する。
我々のフレームワークは、過去のフレームとインスタンスセグメンテーションマスクの両方を現在のフレーム領域にワープするために使用される、一般的な事前訓練された光フロー推定ネットワークを使用している。
これにより、歪んだセグメンテーションマスクを洗練して融合させ、閉塞した領域を塗布し、流れ場欠陥によるアーティファクトを除去する。
さらに、様々な複雑なシナリオでモデルをトレーニングするために、新しい大規模MOSE 2023データセットを使用します。
DAVIS 2016/2017バリデーション(93.0%と85.9%)、DAVIS 2017 test-dev(80.6%)、YouTube-VOS 2019バリデーション(83.8%)は、はるかに単純なメモリ機構とインスタンス理解ロジックを使用しながら、代替の最先端のメソッドと競合する。
In this paper, we show that transferring knowledge from other domains of video understanding combined with large-scale learning can improve robustness of Video Object Segmentation (VOS) under complex circumstances. Namely, we focus on integrating scene global motion knowledge to improve large-scale semi-supervised Video Object Segmentation. Prior works on VOS mostly rely on direct comparison of semantic and contextual features to perform dense matching between current and past frames, passing over actual motion structure. On the other hand, Optical Flow Estimation task aims to approximate the scene motion field, exposing global motion patterns which are typically undiscoverable during all pairs similarity search. We present WarpFormer, an architecture for semi-supervised Video Object Segmentation that exploits existing knowledge in motion understanding to conduct smoother propagation and more accurate matching. Our framework employs a generic pretrained Optical Flow Estimation network whose prediction is used to warp both past frames and instance segmentation masks to the current frame domain. Consequently, warped segmentation masks are refined and fused together aiming to inpaint occluded regions and eliminate artifacts caused by flow field imperfects. Additionally, we employ novel large-scale MOSE 2023 dataset to train model on various complex scenarios. Our method demonstrates strong performance on DAVIS 2016/2017 validation (93.0% and 85.9%), DAVIS 2017 test-dev (80.6%) and YouTube-VOS 2019 validation (83.8%) that is competitive with alternative state-of-the-art methods while using much simpler memory mechanism and instance understanding logic. | 翻訳日:2024-05-14 18:47:31 公開日:2024-05-11 |
# エッジアシスト無線ネットワークにおける拡張現実感アプリケーションのための性能解析モデリングフレームワーク
A Performance Analysis Modeling Framework for Extended Reality Applications in Edge-Assisted Wireless Networks ( http://arxiv.org/abs/2405.07033v1 ) ライセンス: Link先を確認 | Anik Mallik, Jiang Xie, Zhu Han, | (参考訳) 拡張現実(XR)は、拡張現実、混合、およびバーチャルリアリティアプリケーションの出現により、研究コミュニティのアトラクションの中心にある。
このようなアプリケーションのパフォーマンスは、レイテンシ、エネルギー消費、データの鮮度といった要件を維持するために、注意が必要である。
そのため、XRアプリケーションの有効性を評価するには総合的な性能解析モデルが必要であるが、計算資源やXRとエッジデバイスのハードウェア利用など、性能指標の依存による設計が困難である。
さらに、デバイスと無線アクセスネットワークの不均一性は、モデリングにおいてさらなる課題をもたらす。
本稿では、エッジアシスト無線ネットワークを考慮したXRアプリケーションの性能解析のための新しいモデリングフレームワークを提案し、XRアプリケーション専用に設計されたテストベッドから収集した実験データを用いてモデルの有効性を検証する。
さらに,性能解析モデルにまつわる課題と,それらを詳細に克服するための方法を提案する。
最後に,提案した解析モデルを用いて,最新の解析モデルと比較して高い精度でXRアプリケーションの性能を解析可能であることを示す。
Extended reality (XR) is at the center of attraction in the research community due to the emergence of augmented, mixed, and virtual reality applications. The performance of such applications needs to be uptight to maintain the requirements of latency, energy consumption, and freshness of data. Therefore, a comprehensive performance analysis model is required to assess the effectiveness of an XR application but is challenging to design due to the dependence of the performance metrics on several difficult-to-model parameters, such as computing resources and hardware utilization of XR and edge devices, which are controlled by both their operating systems and the application itself. Moreover, the heterogeneity in devices and wireless access networks brings additional challenges in modeling. In this paper, we propose a novel modeling framework for performance analysis of XR applications considering edge-assisted wireless networks and validate the model with experimental data collected from testbeds designed specifically for XR applications. In addition, we present the challenges associated with performance analysis modeling and present methods to overcome them in detail. Finally, the performance evaluation shows that the proposed analytical model can analyze XR applications' performance with high accuracy compared to the state-of-the-art analytical models. | 翻訳日:2024-05-14 18:47:31 公開日:2024-05-11 |
# トルコ語教育用クロスワードパズル
A Turkish Educational Crossword Puzzle ( http://arxiv.org/abs/2405.07035v1 ) ライセンス: Link先を確認 | Kamyar Zeinalipour, Yusuf Gökberk Keptiğ, Marco Maggini, Leonardo Rigutini, Marco Gori, | (参考訳) 本稿では,大規模言語モデル(LLM)の能力を活用したトルコ語クロスワードパズル生成器について紹介する。
本研究では,与えられた回答から関連した手がかりを生成するために,180,000以上のユニークな回答キューペアを持つデータセットと,特定のカテゴリ内で特定のテキストやキーワードの手がかりを生成することを目的とした,テキスト,回答,カテゴリ,ヒントデータを含む35,000以上のサンプルを導入したデータセットを紹介した。
エンターテイメント以外にも、このジェネレータは、記憶、語彙、問題解決能力を高めるインタラクティブな教育ツールとして登場した。
これは、AIを活用した教育における注目すべきステップであり、トルコの学習とゲームライクなエンゲージメントを融合させ、トルコにおけるインタラクティブでインテリジェントな学習ツールの新しい標準を設定している。
This paper introduces the first Turkish crossword puzzle generator designed to leverage the capabilities of large language models (LLMs) for educational purposes. In this work, we introduced two specially created datasets: one with over 180,000 unique answer-clue pairs for generating relevant clues from the given answer, and another with over 35,000 samples containing text, answer, category, and clue data, aimed at producing clues for specific texts and keywords within certain categories. Beyond entertainment, this generator emerges as an interactive educational tool that enhances memory, vocabulary, and problem-solving skills. It's a notable step in AI-enhanced education, merging game-like engagement with learning for Turkish and setting new standards for interactive, intelligent learning tools in Turkish. | 翻訳日:2024-05-14 18:47:31 公開日:2024-05-11 |
# コンフォーマルオンラインオークションデザイン
Conformal Online Auction Design ( http://arxiv.org/abs/2405.07038v1 ) ライセンス: Link先を確認 | Jiale Han, Xiaowu Dai, | (参考訳) 本稿では,オンラインオークションにおける収益を最大化するための新しいメカニズムである共形オンラインオークションデザイン(COAD)を提案する。
COADは入札者とアイテムの特徴の両方を取り入れ、過去のデータを活用してオンラインオークションのインセンティブ互換のメカニズムを提供する。
オンラインオークションの伝統的な方法とは異なり、COADは共形予測技術を用いて分布のない、予測間隔に基づくアプローチを採用している。
この新たなアプローチは、我々のメカニズムから期待される収益が、最適メカニズムによって生成される収益の少なくとも一定の割合を達成することを保証します。
さらに、COADは、入札者の値を予測するためにランダムフォレスト、カーネルメソッド、ディープニューラルネットを含む、幅広い現代的な機械学習手法を使用していることを認めている。
これは、履歴データの限られたサンプルの下での収益パフォーマンスを保証する。
さらに、COADは、入札者のバリュエーションの信頼性が低いことに基づく入札者固有のリザーブ価格を導入しており、これは文献で一般的に使用される均一なリザーブ価格とは異なる。
我々は、広範囲なシミュレーションと実データ応用による理論予測を検証する。
COADの使用と結果の再生に関するすべてのコードはGitHubで公開されている。
This paper proposes the conformal online auction design (COAD), a novel mechanism for maximizing revenue in online auctions by quantifying the uncertainty in bidders' values without relying on assumptions about value distributions. COAD incorporates both the bidder and item features and leverages historical data to provide an incentive-compatible mechanism for online auctions. Unlike traditional methods for online auctions, COAD employs a distribution-free, prediction interval-based approach using conformal prediction techniques. This novel approach ensures that the expected revenue from our mechanism can achieve at least a constant fraction of the revenue generated by the optimal mechanism. Additionally, COAD admits the use of a broad array of modern machine-learning methods, including random forests, kernel methods, and deep neural nets, for predicting bidders' values. It ensures revenue performance under any finite sample of historical data. Moreover, COAD introduces bidder-specific reserve prices based on the lower confidence bounds of bidders' valuations, which is different from the uniform reserve prices commonly used in the literature. We validate our theoretical predictions through extensive simulations and a real-data application. All code for using COAD and reproducing results is made available on GitHub. | 翻訳日:2024-05-14 18:47:31 公開日:2024-05-11 |
# Denoized Endpoint Distribution を用いたマルチエージェント交通予測
Multi-agent Traffic Prediction via Denoised Endpoint Distribution ( http://arxiv.org/abs/2405.07041v1 ) ライセンス: Link先を確認 | Yao Liu, Ruoyu Wang, Yuanjiang Cao, Quan Z. Sheng, Lina Yao, | (参考訳) ロボットや道路交通機関による高速移動の探索は、自動運転とナビゲーションに不可欠である。
高速での軌道予測は、低速環境では発音されない複雑さである、周囲の物体との歴史的特徴や相互作用を考慮する必要がある。
従来の手法ではエージェントの時空間的ダイナミクスを評価していたが、本質的な意図や不確実性は無視され、有効性は制限された。
本稿では, エージェントの時空間的特徴を本質的な意図や不確実性とともにモデル化した, 軌跡予測のためのDenoized Endpoint Distributionモデルを提案する。
ディフュージョンモデルとトランスフォーマーモデルを用いて、全軌跡ではなくエージェントエンドポイントにフォーカスすることで、モデルの複雑さを著しく低減し、エンドポイント情報によるパフォーマンスを向上させる。
オープンデータセットに関する実験は、比較とアブレーション研究と合わせて、我々のモデルの有効性とコンポーネントの重要性を実証した。
このアプローチは,高速シナリオにおける軌道予測を推し進め,今後の発展に向けた基礎研究を行う。
The exploration of high-speed movement by robots or road traffic agents is crucial for autonomous driving and navigation. Trajectory prediction at high speeds requires considering historical features and interactions with surrounding entities, a complexity not as pronounced in lower-speed environments. Prior methods have assessed the spatio-temporal dynamics of agents but often neglected intrinsic intent and uncertainty, thereby limiting their effectiveness. We present the Denoised Endpoint Distribution model for trajectory prediction, which distinctively models agents' spatio-temporal features alongside their intrinsic intentions and uncertainties. By employing Diffusion and Transformer models to focus on agent endpoints rather than entire trajectories, our approach significantly reduces model complexity and enhances performance through endpoint information. Our experiments on open datasets, coupled with comparison and ablation studies, demonstrate our model's efficacy and the importance of its components. This approach advances trajectory prediction in high-speed scenarios and lays groundwork for future developments. | 翻訳日:2024-05-14 18:47:31 公開日:2024-05-11 |
# 経路積分定式化における効率的な量子シミュレーションアルゴリズム
Efficient Quantum Simulation Algorithms in the Path Integral Formulation ( http://arxiv.org/abs/2405.07042v1 ) ライセンス: Link先を確認 | Serene Shum, Nathan Wiebe, | (参考訳) 従来のスパースハミルトニアン形式よりも、経路積分形式を用いてより自然に表現された問題に対して、量子スピードアップを観測できる経路積分に基づく量子シミュレーションの新しいパラダイムを提供する。
我々は、経路積分定式化のハミルトン版に基づく2つの新しい量子アルゴリズムと、 $\frac{m}{2}\dot{x}^2 - V(x)$ という形のラグランジアンに対して提供する。
このラグランジアンパス積分アルゴリズムは、ラグランジアンパス積分の離散バージョンの新しい厳密な導出に基づいている。
我々の最初のハミルトン経路積分法は、経路を短い時間ステップに分割する。
適切なスパース性仮定の下では効率的であり、シミュレーション時間$t$とエラー$\epsilon$に対して$t^{o(1)}/\epsilon^{o(1)}とスケールするハミルトン項の固有ベクトル間の重複と固有値を与えるオラクルに対して多くのクエリを必要とする。
第2のアプローチは、ほぼ断熱的なシステムに長時間の経路積分を使用し、エネルギー固有値ギャップとシミュレーション時間が十分に長い場合、$O(1/\sqrt{\epsilon})$とスケールするクエリ複雑性を持つ。
最後に、我々のラグランジアンシミュレーションアルゴリズムは、連続極限においてスケールする離散ラグランジアンを計算するオラクルへの多数のクエリを必要とし、$\widetilde{O}(t^2/\epsilon)$ if $V(x)$ が有界で有限であり、波動関数は適切な位置と運動量カットオフに従う。
このことは、ラグランジアン力学が量子コンピュータ上で効率的にシミュレートされ、ハミルトニアンが未知の量子場理論が量子コンピュータ上で効率的にシミュレートされる可能性を開くことを示している。
We provide a new paradigm for quantum simulation that is based on path integration that allows quantum speedups to be observed for problems that are more naturally expressed using the path integral formalism rather than the conventional sparse Hamiltonian formalism. We provide two novel quantum algorithms based on Hamiltonian versions of the path integral formulation and another for Lagrangians of the form $\frac{m}{2}\dot{x}^2 - V(x)$. This Lagrangian path integral algorithm is based on a new rigorous derivation of a discrete version of the Lagrangian path integral. Our first Hamiltonian path integral method breaks up the paths into short timesteps. It is efficient under appropriate sparsity assumptions and requires a number of queries to oracles that give the eigenvalues and overlaps between the eigenvectors of the Hamiltonian terms that scales as $t^{o(1)}/\epsilon^{o(1)}$ for simulation time $t$ and error $\epsilon$. The second approach uses long-time path integrals for near-adiabatic systems and has query complexity that scales as $O(1/\sqrt{\epsilon})$ if the energy eigenvalue gaps and simulation time is sufficiently long. Finally, we show that our Lagrangian simulation algorithm requires a number of queries to an oracle that computes the discrete Lagrangian that scales, in the continuum limit, as $\widetilde{O}(t^2/\epsilon)$ if $V(x)$ is bounded and finite and the wave function obeys appropriate position and momentum cutoffs. This shows that Lagrangian dynamics can be efficiently simulated on quantum computers and opens up the possibility for quantum field theories for which the Hamiltonian is unknown to be efficiently simulated on quantum computers. | 翻訳日:2024-05-14 18:47:31 公開日:2024-05-11 |
# 生成拡散を先行した意味誘導型大規模因子リモートセンシング画像超解像
Semantic Guided Large Scale Factor Remote Sensing Image Super-resolution with Generative Diffusion Prior ( http://arxiv.org/abs/2405.07044v1 ) ライセンス: Link先を確認 | Ce Wang, Wanjie Sun, | (参考訳) 異なるプラットフォームで捉えたリモートセンシング画像は、空間分解能において大きな違いを示す。
大規模因子超解像(SR)アルゴリズムは、軌道から取得した低解像度(LR)衛星データの最大化に不可欠である。
しかし、既存の手法では、明瞭なテクスチャと正しい接地オブジェクトでSR画像を復元する際の課題に直面している。
本稿では,大規模リモートセンシング画像の超解像を実現するための新しいフレームワークであるセマンティックガイド拡散モデル(SGDM)を提案する。
このフレームワークは、事前訓練された生成モデルを利用して、知覚的に可視なSR画像を生成する。
我々は、構造的および意味的な手がかりを持つベクトルマップを組み込むことで、再構築をさらに強化する。
さらに、センサ固有の画像特性から生じるペアリングされたリモートセンシング画像の画素レベルの不整合は、モデル収束を阻害し、生成結果の多様性を損なう可能性がある。
この問題に対処するために,センサ固有の撮像特性を抽出し,その分布をモデル化し,参照画像や撮像特性分布からサンプリングした画像特性に基づいて多様なSR画像を生成することを提案する。
そこで我々はCMSRD(Cross-Modal Super-Resolution Dataset)を作成した。
CMSRDの定性的および定量的実験は,本手法の優位性と幅広い適用性を示した。
下流視覚タスクの実験結果も、生成したSR画像の実用性を示している。
データセットとコードはhttps://github.com/wwangcece/SGDMで公開されている。
Remote sensing images captured by different platforms exhibit significant disparities in spatial resolution. Large scale factor super-resolution (SR) algorithms are vital for maximizing the utilization of low-resolution (LR) satellite data captured from orbit. However, existing methods confront challenges in recovering SR images with clear textures and correct ground objects. We introduce a novel framework, the Semantic Guided Diffusion Model (SGDM), designed for large scale factor remote sensing image super-resolution. The framework exploits a pre-trained generative model as a prior to generate perceptually plausible SR images. We further enhance the reconstruction by incorporating vector maps, which carry structural and semantic cues. Moreover, pixel-level inconsistencies in paired remote sensing images, stemming from sensor-specific imaging characteristics, may hinder the convergence of the model and diversity in generated results. To address this problem, we propose to extract the sensor-specific imaging characteristics and model the distribution of them, allowing diverse SR images generation based on imaging characteristics provided by reference images or sampled from the imaging characteristic probability distributions. To validate and evaluate our approach, we create the Cross-Modal Super-Resolution Dataset (CMSRD). Qualitative and quantitative experiments on CMSRD showcase the superiority and broad applicability of our method. Experimental results on downstream vision tasks also demonstrate the utilitarian of the generated SR images. The dataset and code will be publicly available at https://github.com/wwangcece/SGDM | 翻訳日:2024-05-14 18:47:31 公開日:2024-05-11 |
# 貯留層カーネルモチーフ空間における予測モデリング
Predictive Modeling in the Reservoir Kernel Motif Space ( http://arxiv.org/abs/2405.07045v1 ) ライセンス: Link先を確認 | Peter Tino, Robert Simon Fong, Roberto Fabio Leonarduzzi, | (参考訳) 本研究では,線形貯水池のカーネルビューに基づく時系列予測手法を提案する。
特に、一般的な読み出しを構築するための表現基盤として、貯蓄カーネルの時系列モチーフを用いる。
我々は、我々のアプローチがコア貯水池モデルとどのように関係しているか、そしてどのように2つのアプローチが異なるかについて、我々のアプローチの幾何学的解釈を提供する。
実験により,提案モデルと最近の最先端トランスフォーマーモデル,および確立された再帰型ネットワークモデルLSTMの予測性能を比較した。
実験は、単変量級数と多変量級数級数の両方で、様々な予測地平線で実施される。
むしろ意外なことに、線形読み出しが使われても、我々の手法は、単変量時系列上でトランスフォーマーモデルより優れ、多変量ベンチマークデータセット上で競合する結果が得られることを示している。
キャパシティを容易に制御できるが、十分なメモリとサブシーケンス構造をキャプチャする単純なモデルは、過度に複雑化したディープラーニングモデルより優れていると結論付けている。
これは、貯水池のモチーフベースのモデルは、他のより複雑な代替品よりも好まれるという意味ではない。むしろ、新しい複雑な時系列モデルを導入する際には、正当性チェックは単純であるが、貯水池モデルやここで導入されたモデルのような潜在的に強力な代替品/ベースラインとして使うべきである。
This work proposes a time series prediction method based on the kernel view of linear reservoirs. In particular, the time series motifs of the reservoir kernel are used as representational basis on which general readouts are constructed. We provide a geometric interpretation of our approach shedding light on how our approach is related to the core reservoir models and in what way the two approaches differ. Empirical experiments then compare predictive performances of our suggested model with those of recent state-of-art transformer based models, as well as the established recurrent network model - LSTM. The experiments are performed on both univariate and multivariate time series and with a variety of prediction horizons. Rather surprisingly we show that even when linear readout is employed, our method has the capacity to outperform transformer models on univariate time series and attain competitive results on multivariate benchmark datasets. We conclude that simple models with easily controllable capacity but capturing enough memory and subsequence structure can outperform potentially over-complicated deep learning models. This does not mean that reservoir motif based models are preferable to other more complex alternatives - rather, when introducing a new complex time series model one should employ as a sanity check simple, but potentially powerful alternatives/baselines such as reservoir models or the models introduced here. | 翻訳日:2024-05-14 18:47:31 公開日:2024-05-11 |
# 検索型ゼロショットビデオキャプション
Retrieval Enhanced Zero-Shot Video Captioning ( http://arxiv.org/abs/2405.07046v1 ) ライセンス: Link先を確認 | Yunchuan Ma, Laiyun Qing, Guorong Li, Yuankai Qi, Quan Z. Sheng, Qingming Huang, | (参考訳) 完全に監督されたビデオキャプションの大幅な進歩にもかかわらず、ゼロショット法はいまだに研究されていない。
本稿では,既存の学習済み大規模視覚と言語モデルを利用して,テスト時間適応型の字幕を直接生成する手法を提案する。
具体的には、一般的なビデオ理解モデルXCLIP、一般的な画像理解モデルCLIP、およびテキスト生成モデルGPT-2の3つの主要なモデルを用いて、映像とテキストをブリッジする。
主な課題は、テキスト生成モデルが所定のビデオの内容を十分に認識し、対応するキャプションを生成する方法である。
そこで本研究では,凍結したGPT-2と凍結したXCLIPと,凍結したCLIPとの通信媒体として,学習可能なトークンを提案する。
本稿では,これらのトークンをトレーニングデータでトレーニングする従来の方法と異なり,これらのトークンを複数の注意深い損失関数の下で推論データの擬似ターゲットで更新し,GPT-2に適合する映像情報の吸収を可能にする。
この手順はほんの数イテレーションで実行できます(実験では16回使用しています)。
MSR-VTT、MSVD、VATEXの3つの広く使われているデータセットに対する大規模な実験結果は、既存の最先端手法と比較して、CIDErの主測度において4%から20%改善されている。
Despite the significant progress of fully-supervised video captioning, zero-shot methods remain much less explored. In this paper, we propose to take advantage of existing pre-trained large-scale vision and language models to directly generate captions with test time adaptation. Specifically, we bridge video and text using three key models: a general video understanding model XCLIP, a general image understanding model CLIP, and a text generation model GPT-2, due to their source-code availability. The main challenge is how to enable the text generation model to be sufficiently aware of the content in a given video so as to generate corresponding captions. To address this problem, we propose using learnable tokens as a communication medium between frozen GPT-2 and frozen XCLIP as well as frozen CLIP. Differing from the conventional way to train these tokens with training data, we update these tokens with pseudo-targets of the inference data under several carefully crafted loss functions which enable the tokens to absorb video information catered for GPT-2. This procedure can be done in just a few iterations (we use 16 iterations in the experiments) and does not require ground truth data. Extensive experimental results on three widely used datasets, MSR-VTT, MSVD, and VATEX, show 4% to 20% improvements in terms of the main metric CIDEr compared to the existing state-of-the-art methods. | 翻訳日:2024-05-14 18:47:31 公開日:2024-05-11 |
# CT金属アーチファクト低減のための教師なし密度ニューラルネットワーク
Unsupervised Density Neural Representation for CT Metal Artifact Reduction ( http://arxiv.org/abs/2405.07047v1 ) ライセンス: Link先を確認 | Qing Wu, Xu Guo, Lixuan Chen, Dongming He, Hongjiang Wei, Xudong Wang, S. Kevin Zhou, Yifeng Zhang, Jingyi Yu, Yuyao Zhang, | (参考訳) NeRP、CoIL、SCOPEなどの暗黙的神経表現(INR)に基づく非教師なし再構成技術は、CT線形逆画像においてユニークな機能を示している。
本研究では,スキャン対象が金属を含む場合のCT金属アーティファクトの課題に対処するための,教師なし密度ニューラルネットワーク表現(ダイナー)を提案する。
X線スペクトル上の金属の線形減衰係数(LAC)の劇的な変動は、CT測定における非線形ビーム硬化効果(BHE)をもたらす。
金属の影響による測定からCT画像の復元は複雑な非線形逆問題を引き起こす。
既存の金属人工物還元(MAR)技術は、主にMARをイメージインペイントタスクとして定式化し、エネルギー誘起のBHEを無視し、準最適性能を生み出す。
代わりに、我々のダイナーはエネルギー依存多色CTフォワードモデルをINRフレームワークに導入し、MAR問題の非線形性質に対処する。
具体的には、エネルギー依存型RACをエネルギー非依存密度とエネルギー依存型質量減衰係数(MAC)に分解し、X線吸収の物理モデルを完全に検討する。
密度をピボット変数とし、MACを既知の事前知識として使用することにより、RACを生測値から正確に再構成することができる。
技術的には、未知密度写像を座標の暗黙関数として表現する。
実測値と実測値の予測誤差を最小化して暗黙的関数を近似する多層知覚ネットワークを,密度から実測値への物理的獲得をシミュレートする新しい微分可能前方モデルと組み合わせて最適化した。
シミュレーションおよび実データを用いた実験結果から,MAR性能とロバスト性において,教師なしダイナーが一般的な教師付き技術に対して優位であることが確認された。
Emerging unsupervised reconstruction techniques based on implicit neural representation (INR), such as NeRP, CoIL, and SCOPE, have shown unique capabilities in CT linear inverse imaging. In this work, we propose a novel unsupervised density neural representation (Diner) to tackle the challenging problem of CT metal artifacts when scanned objects contain metals. The drastic variation of linear attenuation coefficients (LACs) of metals over X-ray spectra leads to a nonlinear beam hardening effect (BHE) in CT measurements. Recovering CT images from metal-affected measurements therefore poses a complicated nonlinear inverse problem. Existing metal artifact reduction (MAR) techniques mostly formulate the MAR as an image inpainting task, which ignores the energy-induced BHE and produces suboptimal performance. Instead, our Diner introduces an energy-dependent polychromatic CT forward model to the INR framework, addressing the nonlinear nature of the MAR problem. Specifically, we decompose the energy-dependent LACs into energy-independent densities and energy-dependent mass attenuation coefficients (MACs) by fully considering the physical model of X-ray absorption. Using the densities as pivot variables and the MACs as known prior knowledge, the LACs can be accurately reconstructed from the raw measurements. Technically, we represent the unknown density map as an implicit function of coordinates. Combined with a novel differentiable forward model simulating the physical acquisition from the densities to the measurements, our Diner optimizes a multi-layer perception network to approximate the implicit function by minimizing predicted errors between the estimated and real measurements. Experimental results on simulated and real datasets confirm the superiority of our unsupervised Diner against popular supervised techniques in MAR performance and robustness. | 翻訳日:2024-05-14 18:32:45 公開日:2024-05-11 |
# 非ガウス量子状態を用いた所定の位相シフトの検出
Using non-Gaussian quantum states for detection of a given phase shift ( http://arxiv.org/abs/2405.07049v1 ) ライセンス: Link先を確認 | V. L. Gorshenin, F. Ya. Khalili, | (参考訳) 非ガウス的(フォックまたはシンガー・キャット)量子状態を2腕の干渉計の暗いポートと強い古典的な光の明るいポートに注入すると、原理的には、非ガウス的状態の原点と非ガウス的状態の変位の間の直交性を用いて、与えられた位相シフトを曖昧に検出することができる。光学的損失は感度を低下させ、有限の「偽陽性」と「偽陰性」検出誤差を導入する。
しかし、最先端の光検出器を用いることで、ガウス量子状態よりも優れた検出精度を得ることができる。
Injecting a non-Gaussian (Fock or Shr\"odinger cat) quantum state into the dark port of a two-arm interferometer and a strong classical light into the bright one, it is possible, in principle, to detect a given phase shift unambiguously using the orthogonality between the original and displaced in the interferometer non-Gaussian states. The optical losses degrade the sensitivity, introducing the finite "false positive" and "false negative" detection errors. However, using the state-of-art photodetectors, it is still possible to obtain better detection fidelity than in the case of Gaussian quantum states. | 翻訳日:2024-05-14 18:32:45 公開日:2024-05-11 |
# 長大文書分類用長長対応マルチカーネル変換器
Length-Aware Multi-Kernel Transformer for Long Document Classification ( http://arxiv.org/abs/2405.07052v1 ) ライセンス: Link先を確認 | Guangzeng Han, Jack Tsao, Xiaolei Huang, | (参考訳) 長いドキュメントは、かなりのメモリ消費のために、ニューラルネットワークモデルに固有の課題を生じさせる。
既存の最先端(SOTA)モデルは、長いテキストを同じ長さのスニペット(例えば、1スニペットあたり128トークン)に分割したり、スパースアテンションネットワークを展開したりするが、これらの手法には、文境界と様々なテキスト長によるコンテキストの断片化と一般化性の新たな課題がある。
例えば、我々の経験的分析では、SOTAモデルは1組の長文(例、2000トークン)を一貫してオーバーフィットし、他の長文(例、1000、4000)では悪化している。
本研究では,Longth-Aware Multi-Kernel Transformer (LAMKIT)を提案する。
LAMKITは、コンテキスト境界をブリッジする様々なトランスフォーマーベースのカーネルによって長大なドキュメントをエンコードし、カーネルによってテキスト長をベクトル化し、さまざまなドキュメント長に対してモデルロバスト性を促進する。
健康と法分野の5つの標準ベンチマークの実験では、LAMKITはSOTAモデルよりも10.9%向上している。
各種文書長に対するモデルロバスト性と有効性を検討するために,広範囲なアブレーション解析を行った。
Lengthy documents pose a unique challenge to neural language models due to substantial memory consumption. While existing state-of-the-art (SOTA) models segment long texts into equal-length snippets (e.g., 128 tokens per snippet) or deploy sparse attention networks, these methods have new challenges of context fragmentation and generalizability due to sentence boundaries and varying text lengths. For example, our empirical analysis has shown that SOTA models consistently overfit one set of lengthy documents (e.g., 2000 tokens) while performing worse on texts with other lengths (e.g., 1000 or 4000). In this study, we propose a Length-Aware Multi-Kernel Transformer (LAMKIT) to address the new challenges for the long document classification. LAMKIT encodes lengthy documents by diverse transformer-based kernels for bridging context boundaries and vectorizes text length by the kernels to promote model robustness over varying document lengths. Experiments on five standard benchmarks from health and law domains show LAMKIT outperforms SOTA models up to an absolute 10.9% improvement. We conduct extensive ablation analyses to examine model robustness and effectiveness over varying document lengths. | 翻訳日:2024-05-14 18:32:45 公開日:2024-05-11 |
# LUCID: コンテナスキャンツール間の偽陽性と矛盾を減らすためのフレームワーク
LUCID: A Framework for Reducing False Positives and Inconsistencies Among Container Scanning Tools ( http://arxiv.org/abs/2405.07054v1 ) ライセンス: Link先を確認 | Md Sadun Haq, Ali Saman Tosun, Turgay Korkmaz, | (参考訳) コンテナ化は、ソフトウェア開発とデプロイメント産業において、革命的な技術として登場した。
コンテナはポータブルで軽量なソリューションを提供し、アプリケーションとその依存関係を体系的かつ効率的にパッケージングできる。
さらにコンテナは、仮想マシンと比較して、より高速なデプロイメントと、ほぼネイティブなパフォーマンスで、分離とセキュリティ上の欠点がある。
セキュリティ問題に対処するため、既存の脆弱性のためにコンテナをスキャンするスキャンツールが開発されているが、それらは偽陽性に悩まされている。
さらに、異なるスキャンツールを使用して同じコンテナをスキャンすると、異なる結果が得られ、不整合と混乱につながる。
これらの問題に対処するために、限定的な作業が行われた。
本稿では,複数のスキャンツールによって提供される偽陽性や不整合を低減できるLUCIDという,完全に機能的で拡張可能なフレームワークを提供する。
データベース中心のアプローチを用いてクエリベースの分析を行い、不整合の原因を特定します。
その結果,我々のフレームワークは不整合を70%削減できることがわかった。
このフレームワークはIntel64/AMD64とARMアーキテクチャの両方でテストされている。
また、異なる重大度レベルを84%の精度で分類し、予測できる動的分類コンポーネントを作成します。
本稿では,コンテナ技術のセキュリティに対する意識を高め,コンテナスキャニング企業によるツールの改善によって,より優れた一貫性のある結果の提供が可能になる,と信じています。
Containerization has emerged as a revolutionary technology in the software development and deployment industry. Containers offer a portable and lightweight solution that allows for packaging applications and their dependencies systematically and efficiently. In addition, containers offer faster deployment and near-native performance with isolation and security drawbacks compared to Virtual Machines. To address the security issues, scanning tools that scan containers for preexisting vulnerabilities have been developed, but they suffer from false positives. Moreover, using different scanning tools to scan the same container provides different results, which leads to inconsistencies and confusion. Limited work has been done to address these issues. This paper provides a fully functional and extensible framework named LUCID that can reduce false positives and inconsistencies provided by multiple scanning tools. We use a database-centric approach and perform query-based analysis, to pinpoint the causes for inconsistencies. Our results show that our framework can reduce inconsistencies by 70%. The framework has been tested on both Intel64/AMD64 and ARM architecture. We also create a Dynamic Classification component that can successfully classify and predict the different severity levels with an accuracy of 84%. We believe this paper will raise awareness regarding security in container technologies and enable container scanning companies to improve their tool to provide better and more consistent results. | 翻訳日:2024-05-14 18:32:45 公開日:2024-05-11 |
# 固体中の励起子-フォノン散乱の混合量子-古典的モデリング:単層MoS2の光線幅への応用
Mixed quantum-classical modeling of exciton-phonon scattering in solids: Application to optical linewidths of monolayer MoS2 ( http://arxiv.org/abs/2405.07058v1 ) ライセンス: Link先を確認 | Alex Krotz, Roel Tempelaar, | (参考訳) 固体物質中の励起子-フォノン散乱の微視的および非マルコフ的モデリングのための混合量子古典的枠組みを提案し,それを単層MoS2の光線幅の計算に応用する。
この枠組みでは、相互空間混合量子古典力学と準粒子バンド構造と電子-ホール相互作用とキャリア-フォノン相互作用のモデルを組み合わせる。
興味のある領域にブリルアンゾーンをトラッカーする様々なパラメータを導入する。
これらのパラメータの変動により、漸近的な材料サイズに制限のある直線幅を決定できる。
得られた漸近性線幅は、様々な温度の実験的測定と良好に一致している。
このように、我々の枠組みは、固体の非断熱力学を規定する非マルコフ的および微視的原理を解き放つための有望な経路として確立されている。
We present a mixed quantum-classical framework for the microscopic and non-Markovian modeling of exciton-phonon scattering in solid-state materials, and apply it to calculate the optical linewidths of monolayer MoS2. Within this framework, we combine reciprocal-space mixed quantum-classical dynamics with models for the quasiparticle band structure as well as the electron-hole and carrier-phonon interactions, parametrized against ab initio calculations, although noting that a direct interfacing with ab initio calculations is straightforward in principle. We introduce various parameters for truncating the Brillouin zone to select regions of interest. Variations of these parameters allow us to determine linewidths in the limit of asymptotic material sizes. Obtained asymptotic linewidths are found to agree favorably with experimental measurements across a range of temperatures. As such, our framework establishes itself as a promising route towards unraveling the non-Markovian and microscopic principles governing the nonadiabatic dynamics of solids. | 翻訳日:2024-05-14 18:32:45 公開日:2024-05-11 |
# LLMとチップ設計の将来 - セキュリティリスクの解消と信頼の構築
LLMs and the Future of Chip Design: Unveiling Security Risks and Building Trust ( http://arxiv.org/abs/2405.07061v1 ) ライセンス: Link先を確認 | Zeng Wang, Lilas Alrahis, Likhitha Mankali, Johann Knechtel, Ozgur Sinanoglu, | (参考訳) チップ設計は、大規模言語、マルチモーダル、回路モデル(LxM)の統合によって革新されそうである。
このエキサイティングなフロンティアを膨大な可能性で探求する一方で、コミュニティは、関連するセキュリティリスクと、チップ設計にLxMを使用することに対する信頼構築の必要性を慎重に検討する必要がある。
まず,チップ設計におけるLxMsの利用の最近の動向について概説する。
ハードウェア記述言語コード生成の自動化や,電子設計自動化ツールや設計空間探索,チューニング,デザイナトレーニングといった,不可欠だが面倒なタスクのスクリプティングと指導について,最先端の作業について紹介する。
第2に,LxMを用いたチップ設計のセキュリティと信頼性に関する重要な問題に対して,攻撃と防衛の両方の観点から,新たな研究課題に対する初期回答を提起し,提示する。
Chip design is about to be revolutionized by the integration of large language, multimodal, and circuit models (collectively LxMs). While exploring this exciting frontier with tremendous potential, the community must also carefully consider the related security risks and the need for building trust into using LxMs for chip design. First, we review the recent surge of using LxMs for chip design in general. We cover state-of-the-art works for the automation of hardware description language code generation and for scripting and guidance of essential but cumbersome tasks for electronic design automation tools, e.g., design-space exploration, tuning, or designer training. Second, we raise and provide initial answers to novel research questions on critical issues for security and trustworthiness of LxM-powered chip design from both the attack and defense perspectives. | 翻訳日:2024-05-14 18:32:45 公開日:2024-05-11 |
# ハイブリッドダリウスランダウにおける火炎進化演算子の学習と拡散熱不安定性
Learning Flame Evolution Operator under Hybrid Darrieus Landau and Diffusive Thermal Instability ( http://arxiv.org/abs/2405.07067v1 ) ライセンス: Link先を確認 | Rixin Yu, Erdzan Hodzic, Karl-Johan Nogenmyr, | (参考訳) 人工知能(AI)と機械学習(ML)を物理科学に統合する最近の進歩は、非線形偏微分方程式(PDE)によって支配される複雑な現象に対処する上で大きな進歩をもたらした。
本稿では,Darrieus-Landau(DL)機構とDiffusive-Thermal(DT)機構の共存から生じるハイブリッド不安定性に着目し,火炎不安定性の複雑なダイナミクスを解明するための新しい演算子学習手法の適用について検討する。
トレーニングデータセットには幅広いパラメータ構成が含まれており、パラメトリックフーリエニューラルオペレータ(pFNO)やパラメトリック畳み込みニューラルネットワーク(pCNN)といった技術を用いてパラメトリックソリューション前進演算子を学習することができる。
その結果, 各種パラメーター系における短期および長期の火炎進展を正確に予測し, 純および混合不安定性の特徴的挙動を捉える上で, これらの手法の有効性が示された。
比較分析により,pFNOは短期解を学習するための最も正確なモデルであることが明らかとなった。
本研究は、非線形PDEによって制御される複雑な物理過程の理解と制御のためのロバストなモデリングフレームワークの開発に寄与する。
Recent advancements in the integration of artificial intelligence (AI) and machine learning (ML) with physical sciences have led to significant progress in addressing complex phenomena governed by nonlinear partial differential equations (PDE). This paper explores the application of novel operator learning methodologies to unravel the intricate dynamics of flame instability, particularly focusing on hybrid instabilities arising from the coexistence of Darrieus-Landau (DL) and Diffusive-Thermal (DT) mechanisms. Training datasets encompass a wide range of parameter configurations, enabling the learning of parametric solution advancement operators using techniques such as parametric Fourier Neural Operator (pFNO), and parametric convolutional neural networks (pCNN). Results demonstrate the efficacy of these methods in accurately predicting short-term and long-term flame evolution across diverse parameter regimes, capturing the characteristic behaviors of pure and blended instabilities. Comparative analyses reveal pFNO as the most accurate model for learning short-term solutions, while all models exhibit robust performance in capturing the nuanced dynamics of flame evolution. This research contributes to the development of robust modeling frameworks for understanding and controlling complex physical processes governed by nonlinear PDE. | 翻訳日:2024-05-14 18:32:45 公開日:2024-05-11 |
# 災害保険 : 適応的ロバスト最適化アプローチ
Catastrophe Insurance: An Adaptive Robust Optimization Approach ( http://arxiv.org/abs/2405.07068v1 ) ライセンス: Link先を確認 | Dimitris Bertsimas, Cynthia Zeng, | (参考訳) 気候変動によって悪化する自然災害の頻度と深刻度は、回復の促進とリスク低減への投資促進における保険の重要性を浮き彫りにしている。
本研究は, 災害保険料の計算に適した新しい適応ロバスト最適化(ARO)フレームワークを導入し, 全米洪水保険プログラム(NFIP)の事例研究を行った。
我々の知る限り、AROアプローチが災害保険価格に適用されるのは今回が初めてです。
我々の手法は、機械学習モデルによって予測される歴史的リスクと新興リスクの両方から保護され、気候変動によって引き起こされる増幅リスクを直接組み込むように設計されている。
米国の洪水保険データをケーススタディとして、最適化モデルは損失をカバーし余剰を発生させる効果を示し、パラメータの微調整を通じてスムーズなバランス遷移を行う。
評価された最適化モデルのうち、AROモデルは、最低保険料が課せられる未解決状態の数が少なく、保守的なパラメータ値を持つ。
全体として、最適化フレームワークは汎用性と一般化性を提供し、山火事や干ばつなど、さまざまな自然災害シナリオに適応できるようにする。
この作業は、保険料のモデリングの分野を前進させるだけでなく、自然災害のリスクの増大に対するレジリエンスを構築するための政策立案者や利害関係者にとって重要なツールとしても機能する。
The escalating frequency and severity of natural disasters, exacerbated by climate change, underscore the critical role of insurance in facilitating recovery and promoting investments in risk reduction. This work introduces a novel Adaptive Robust Optimization (ARO) framework tailored for the calculation of catastrophe insurance premiums, with a case study applied to the United States National Flood Insurance Program (NFIP). To the best of our knowledge, it is the first time an ARO approach has been applied to for disaster insurance pricing. Our methodology is designed to protect against both historical and emerging risks, the latter predicted by machine learning models, thus directly incorporating amplified risks induced by climate change. Using the US flood insurance data as a case study, optimization models demonstrate effectiveness in covering losses and produce surpluses, with a smooth balance transition through parameter fine-tuning. Among tested optimization models, results show ARO models with conservative parameter values achieving low number of insolvent states with the least insurance premium charged. Overall, optimization frameworks offer versatility and generalizability, making it adaptable to a variety of natural disaster scenarios, such as wildfires, droughts, etc. This work not only advances the field of insurance premium modeling but also serves as a vital tool for policymakers and stakeholders in building resilience to the growing risks of natural catastrophes. | 翻訳日:2024-05-14 18:32:45 公開日:2024-05-11 |
# 機械学習を用いた認知健康の復号:重要な記憶障害の診断のための包括的評価
Decoding Cognitive Health Using Machine Learning: A Comprehensive Evaluation for Diagnosis of Significant Memory Concern ( http://arxiv.org/abs/2405.07070v1 ) ライセンス: Link先を確認 | M. Sajid, Rahul Sharma, Iman Beheshti, M. Tanveer, | (参考訳) 重要な記憶障害(SMC)のタイムリーな識別は、特に高齢化において、積極的認知健康管理に不可欠である。
SMCの早期検出は、タイムリーな介入とパーソナライズされたケアを可能にし、認知障害の進行を遅らせる可能性がある。
本研究では, ランダム化ニューラルネットワーク (RNN) と超平面型分類器 (HbCs) ファミリーにおける機械学習モデルの総合的な評価を行い, SMCの診断を徹底的に検討した。
The Alzheimer's Disease Neuroimaging Initiative 2 (ADNI2) データセットを用いて、111人のSMCと111人の健常成人をT1WMRI(MRI)スキャンを用いて分析し、豊富な特徴を抽出する。
この分析は、ベースライン構造MRI(sMRI)スキャンに基づいて、グレーマター(GM)、ホワイトマター(WM)、ヤコビ行列式(JD)、皮質厚さ(CT)の測定からリッチな特徴を抽出する。
RNNでは、深い乱数ベクトル汎関数リンク(dRVFL)とアンサンブルdRVFL(edRVFL)が、SMCの識別における性能指標として最高の分類器として出現する。
HbCでは、Kernelized pinball General twin support vector machine (Pin-GTSVM-K) はCTとWMの機能に優れ、Linear Pin-GTSVM (Pin-GTSVM-L) とLinear Intuitionistic fuzzy TSVM (IFTSVM-L) はJDとGMの機能セットでそれぞれよく機能する。
この包括的評価は,SMC診断に有効な分類器を実現する上で,特徴選択とモデル選択の重要な役割を強調している。
統計的分析の含意は、結果の信頼性をさらに強化し、この分析の厳格さを裏付ける。
評価手法は,SMCの自動的かつ正確な評価を行う研究者を支援する上で,この枠組みの適合性を示すものである。
この研究で使用されたアルゴリズムとデータセットのソースコードはhttps://github.com/mtanveer1/SMCで公開されている。
The timely identification of significant memory concern (SMC) is crucial for proactive cognitive health management, especially in an aging population. Detecting SMC early enables timely intervention and personalized care, potentially slowing cognitive disorder progression. This study presents a state-of-the-art review followed by a comprehensive evaluation of machine learning models within the randomized neural networks (RNNs) and hyperplane-based classifiers (HbCs) family to investigate SMC diagnosis thoroughly. Utilizing the Alzheimer's Disease Neuroimaging Initiative 2 (ADNI2) dataset, 111 individuals with SMC and 111 healthy older adults are analyzed based on T1W magnetic resonance imaging (MRI) scans, extracting rich features. This analysis is based on baseline structural MRI (sMRI) scans, extracting rich features from gray matter (GM), white matter (WM), Jacobian determinant (JD), and cortical thickness (CT) measurements. In RNNs, deep random vector functional link (dRVFL) and ensemble dRVFL (edRVFL) emerge as the best classifiers in terms of performance metrics in the identification of SMC. In HbCs, Kernelized pinball general twin support vector machine (Pin-GTSVM-K) excels in CT and WM features, whereas Linear Pin-GTSVM (Pin-GTSVM-L) and Linear intuitionistic fuzzy TSVM (IFTSVM-L) performs well in the JD and GM features sets, respectively. This comprehensive evaluation emphasizes the critical role of feature selection and model choice in attaining an effective classifier for SMC diagnosis. The inclusion of statistical analyses further reinforces the credibility of the results, affirming the rigor of this analysis. The performance measures exhibit the suitability of this framework in aiding researchers with the automated and accurate assessment of SMC. The source codes of the algorithms and datasets used in this study are available at https://github.com/mtanveer1/SMC. | 翻訳日:2024-05-14 18:32:45 公開日:2024-05-11 |
# 大規模言語モデルにおける倫理的コンプライアンスのための感情モデルと言語モデルの統合
Integrating Emotional and Linguistic Models for Ethical Compliance in Large Language Models ( http://arxiv.org/abs/2405.07076v1 ) ライセンス: Link先を確認 | Edward Y. Chang, | (参考訳) 本研究では,感情や倫理に関する言語行動をよりよく管理するために,Large Language Models (LLMs) の高度な方法論を開発する。
DIKEはLLMがグローバルな人間の価値観を内包し、反映する能力を高め、ユーザ間の透明性と信頼を促進するために様々な文化的文脈に適応する敵対的枠組みである。
この方法論には、感情の詳細なモデリング、言語行動の分類、倫理的ガードレールの実装が含まれる。
我々の革新的なアプローチには、自己指導型学習技術を用いた感情や行動のマッピング、敵のレビューを通じてガードレールを精査すること、倫理的アライメントを確保するためにアウトプットを体系的に調整することが含まれる。
このフレームワークは、倫理的整合性と文化的な敏感さで運用するAIシステムの堅牢な基盤を確立し、より責任とコンテキストを意識したAIインタラクションを実現する。
This research develops advanced methodologies for Large Language Models (LLMs) to better manage linguistic behaviors related to emotions and ethics. We introduce DIKE, an adversarial framework that enhances the LLMs' ability to internalize and reflect global human values, adapting to varied cultural contexts to promote transparency and trust among users. The methodology involves detailed modeling of emotions, classification of linguistic behaviors, and implementation of ethical guardrails. Our innovative approaches include mapping emotions and behaviors using self-supervised learning techniques, refining these guardrails through adversarial reviews, and systematically adjusting outputs to ensure ethical alignment. This framework establishes a robust foundation for AI systems to operate with ethical integrity and cultural sensitivity, paving the way for more responsible and context-aware AI interactions. | 翻訳日:2024-05-14 18:32:45 公開日:2024-05-11 |
# デバイスメモリのためのホストベースのアロケータ
Host-Based Allocators for Device Memory ( http://arxiv.org/abs/2405.07079v1 ) ライセンス: Link先を確認 | Oren Bell, Ashwin Kumar, Chris Gill, | (参考訳) メモリ割り当てはコンピュータ科学のかなり成熟した分野である。
しかし,本研究では,過去50年間の文献において,従来のメモリ管理アルゴリズムの根本的再評価が必要であるという仮定に挑戦する。
割り当てアルゴリズムはホストメモリ上で実行されるが、デバイスメモリを割り当てるので、アロケータはアロケータが割り当てているメモリを読み取ることができない。
これはつまり,ほぼすべてのアロケーションアルゴリズムにおいて,ユビキタスな概念である境界タグを使用できない,ということです。
本稿では,この制約を回避するための代替アルゴリズムを提案する。
Memory allocation is a fairly mature field of computer science. However, we challenge a prevailing assumption in the literature over the last 50 years which, if reconsidered, necessitates a fundamental reevaluation of many classical memory management algorithms. We pose a model where the allocation algorithm runs on host memory but allocates device memory and so incur the following constraint: the allocator can't read the memory it is allocating. This means we are unable to use boundary tags, which is a concept that has been ubiquitous in nearly every allocation algorithm. In this paper, we propose alternate algorithms to work around this constraint, and discuss in general the implications of this system model. | 翻訳日:2024-05-14 18:32:45 公開日:2024-05-11 |
# T-curator:LODログのための信頼ベースのキュレーションツール
T-curator: a trust based curation tool for LOD logs ( http://arxiv.org/abs/2405.07081v1 ) ライセンス: Link先を確認 | Dihia Lanasri, | (参考訳) 現在、企業は付加価値を改善するためにLinked Open Data(LOD)に向かっているが、SPARQLクエリログを無視している。
うまくキュレーションされたら、これらのログは意思決定者のための資産を提示できる。
これらのログの単純で分かりやすい利用はリスクが大きすぎる。
これらのログのユーザは、LOD環境全体に関する詳細な知識と、これらのログをキュレートするツールを提供することで、信頼できる方法でこれらのログのユーザを支援する必要があります。
本稿では、これらのLODログを活用する前に、インタラクティブで直感的な信頼ベースのツールを提案する。
このツールは,Lanasri et al [2020]で提案したアプローチを支援するために提案されている。
Nowadays, companies are racing towards Linked Open Data (LOD) to improve their added value, but they are ignoring their SPARQL query logs. If well curated, these logs can present an asset for decision makers. A naive and straightforward use of these logs is too risky because their provenance and quality are highly questionable. Users of these logs in a trusted way have to be assisted by providing them with in-depth knowledge of the whole LOD environment and tools to curate these logs. In this paper, we propose an interactive and intuitive trust based tool that can be used to curate these LOD logs before exploiting them. This tool is proposed to support our approach proposed in our previous work Lanasri et al. [2020]. | 翻訳日:2024-05-14 18:32:45 公開日:2024-05-11 |
# メタラーニングのためのデータ効率とロバストなタスク選択
Data-Efficient and Robust Task Selection for Meta-Learning ( http://arxiv.org/abs/2405.07083v1 ) ライセンス: Link先を確認 | Donglin Zhan, James Anderson, | (参考訳) メタ学習法は通常、全てのタスクが等しく重要であると仮定してタスクを学習する。
しかし、この仮定はしばしば有効ではない。
実世界のアプリケーションでは、タスクは異なるトレーニング段階における重要性と、ノイズのあるラベル付きデータを含むか否かの両方で異なり、均一なアプローチが最適である。
これらの問題に対処するために、勾配法とメートル法に基づくメタ学習アルゴリズムの両方に組み込むことができるデータ効率およびロバストタスク選択(DERTS)アルゴリズムを提案する。
DERTSはタスクプールからタスクプールの重み付けされたサブセットを選択し、メタトレーニング段階におけるタスクプールの全勾配の近似誤差を最小化する。
選択されたタスクは、迅速なトレーニングに効率的で、ノイズの多いラベルシナリオに対して堅牢である。
既存のアルゴリズムとは異なり、DERTSはトレーニングのためにアーキテクチャの変更を一切必要とせず、サポートセットとクエリセットの両方でノイズの多いラベルデータを処理できる。
DERTSの分析は、このアルゴリズムが全タスクプールでの学習と同様のトレーニングダイナミクスに従うことを示している。
実験により、DERTSはデータ予算とノイズの多いタスク設定において、勾配に基づくメタ学習とメートル法に基づくメタ学習アルゴリズムの両方において、既存のサンプリング戦略よりも優れていることが示された。
Meta-learning methods typically learn tasks under the assumption that all tasks are equally important. However, this assumption is often not valid. In real-world applications, tasks can vary both in their importance during different training stages and in whether they contain noisy labeled data or not, making a uniform approach suboptimal. To address these issues, we propose the Data-Efficient and Robust Task Selection (DERTS) algorithm, which can be incorporated into both gradient and metric-based meta-learning algorithms. DERTS selects weighted subsets of tasks from task pools by minimizing the approximation error of the full gradient of task pools in the meta-training stage. The selected tasks are efficient for rapid training and robust towards noisy label scenarios. Unlike existing algorithms, DERTS does not require any architecture modification for training and can handle noisy label data in both the support and query sets. Analysis of DERTS shows that the algorithm follows similar training dynamics as learning on the full task pools. Experiments show that DERTS outperforms existing sampling strategies for meta-learning on both gradient-based and metric-based meta-learning algorithms in limited data budget and noisy task settings. | 翻訳日:2024-05-14 18:32:45 公開日:2024-05-11 |
# 深層強化学習による自動格子モデルの検討
Auditing an Automatic Grading Model with deep Reinforcement Learning ( http://arxiv.org/abs/2405.07087v1 ) ライセンス: Link先を確認 | Aubrey Condor, Zachary Pardos, | (参考訳) 自動短解格付け(ASAG)モデルに対する深層強化学習の活用について検討する。
自動格付けは、教育者に対する評価対象項目の格付けに要する時間的負担を減少させる可能性があるが、これらのモデルに対する堅牢な評価方法の欠如は、それらの品質の不確実性をもたらす可能性がある。
現在の最先端のASAGモデルは、トレーニングセットからの人間の評価と一致するように構成されており、研究者は通常、モデルと人間のスコアの一致を示す精度の指標で品質を評価する。
本稿では,人間格付けに対する高レベルの合意が,ASAGモデルが誤りであることを示す十分な証拠を与えていないことを示す。
強化学習エージェントを訓練し、最小限のリビジョンにおいて、自動階調モデルから高い評価を得ることを目的として、学生の反応を改訂する。
また,ASAGモデルから高い評価を得られるが,スコアリングルーリックに従って高い評価応答とはみなされないエージェントの修正応答を解析することにより,自動グルーパーを活用できる方法を発見し,グレーティングモデルに欠点を露呈する。
We explore the use of deep reinforcement learning to audit an automatic short answer grading (ASAG) model. Automatic grading may decrease the time burden of rating open-ended items for educators, but a lack of robust evaluation methods for these models can result in uncertainty of their quality. Current state-of-the-art ASAG models are configured to match human ratings from a training set, and researchers typically assess their quality with accuracy metrics that signify agreement between model and human scores. In this paper, we show that a high level of agreement to human ratings does not give sufficient evidence that an ASAG model is infallible. We train a reinforcement learning agent to revise student responses with the objective of achieving a high rating from an automatic grading model in the least number of revisions. By analyzing the agent's revised responses that achieve a high grade from the ASAG model but would not be considered a high scoring responses according to a scoring rubric, we discover ways in which the automated grader can be exploited, exposing shortcomings in the grading model. | 翻訳日:2024-05-14 18:32:45 公開日:2024-05-11 |
# コンプライアンスへの道 - 連邦執行機関とNISTリスクマネジメントフレームワーク
The Road to Compliance: Executive Federal Agencies and the NIST Risk Management Framework ( http://arxiv.org/abs/2405.07094v1 ) ライセンス: Link先を確認 | Michael Stoltz, | (参考訳) この情報レポートは、国家標準技術研究所(NIST)のリスク管理フレームワーク(RMF)がサイバーセキュリティのコンプライアンスを達成するためにどのように実装されているかを包括的に分析する。
RMFの概念と進化を探求することで、報告書は、これらの機関がデジタルの世界で直面している課題に対処し、連邦機関内のサイバーセキュリティ対策を強化することの重要性を論じている。
方法論的な文献レビューを通じて、この報告書は、RMFプロセスにおける継続的監視と自動化の理論的基礎、実装戦略、そして、Ross (2014)、Lubell (2020)、Barrett et al (2021)、Pillitteri et al (2021,2022)といった主要な情報源から引き出された重要な役割について考察する。
データ収集と分析のための詳細な方法論を用いて、このレポートは、RMF実装の成功と課題に関する調査結果を示し、サイバーセキュリティ姿勢の強化における自動化と継続的監視の影響を強調している。
ケーススタディは特定の機関の経験について深い洞察を与え、学んだ教訓とベストプラクティスを提供する。
報告書は、実装上の課題を克服するための戦略的勧告と、RMFの研究・実践を強化するための今後の方向性を示唆している。
この調査は、政策立案者、サイバーセキュリティ専門家、および政府機関に貴重な勧告を提供することで、行政機関全体にわたって堅牢なサイバーセキュリティコンプライアンスを確立するためのRMFの重要な役割を浮き彫りにしている。
This informative report provides a comprehensive analysis of how executive federal report agencies implement the National Institute of Standards and Technology's (NIST) Risk Management Framework (RMF) to achieve cybersecurity compliance. By exploring the concept and evolution of the RMF, the report delves into the framework's importance for enhancing cybersecurity measures within federal agencies, addressing the challenges these agencies face in the digital landscape. Through a methodical literature review, the report examines theoretical foundations, implementation strategies, and the critical role of continuous monitoring and automation in RMF processes, drawing from key sources like Ross (2014), Lubell (2020), Barrett et al. (2021), and Pillitteri et al. (2021, 2022), among others. Employing a detailed methodology for data collection and analysis, the report presents findings on the successes and challenges of RMF implementation, highlighting the impact of automation and continuous monitoring in bolstering cybersecurity postures. Case studies offer in-depth insights into the experiences of specific agencies, providing lessons learned and best practices. The report concludes with strategic recommendations for overcoming implementation challenges and suggests future directions for enhancing RMF research and practice. This investigation underscores the RMF's critical role in establishing robust cybersecurity compliance across executive federal agencies, offering valuable recommendations for policymakers, cybersecurity professionals, and governmental bodies. | 翻訳日:2024-05-14 18:32:45 公開日:2024-05-11 |
# 力学系の未観測状態回復のための確率的ニューラル演算子としての拡散モデル
Diffusion models as probabilistic neural operators for recovering unobserved states of dynamical systems ( http://arxiv.org/abs/2405.07097v1 ) ライセンス: Link先を確認 | Katsiaryna Haitsiukevich, Onur Poyraz, Pekka Marttinen, Alexander Ilin, | (参考訳) 本稿では、偏微分方程式(PDE)に対するニューラル演算子としての拡散に基づく生成モデルの有効性について検討する。
ニューラルネットワークは、パラメータ空間からデータからPDEの解空間へのマッピングを学習するニューラルネットワークであり、また、パラメータを解から推定する逆問題も解決できる。
拡散モデルは多くの領域で優れているが、ニューラル演算子としてのポテンシャルは十分に調べられていない。
本研究では,拡散型生成モデルがニューラル演算子に好適な多くの特性を示し,パラメータに条件付きPDEの解を効果的に生成したり,システムの未観測部分を復元することができることを示す。
本稿では,複数のタスクに適応可能な単一モデルを,トレーニング中のタスク間で交互に学習することを提案する。
複数の現実的力学系を用いた実験では、拡散モデルは他のニューラル演算子よりも優れている。
さらに、確率拡散モデルが、部分的に識別可能なシステムに対して、異なる可能な解に対応するサンプルを生成することによって、エレガントに扱うことができることを示す。
This paper explores the efficacy of diffusion-based generative models as neural operators for partial differential equations (PDEs). Neural operators are neural networks that learn a mapping from the parameter space to the solution space of PDEs from data, and they can also solve the inverse problem of estimating the parameter from the solution. Diffusion models excel in many domains, but their potential as neural operators has not been thoroughly explored. In this work, we show that diffusion-based generative models exhibit many properties favourable for neural operators, and they can effectively generate the solution of a PDE conditionally on the parameter or recover the unobserved parts of the system. We propose to train a single model adaptable to multiple tasks, by alternating between the tasks during training. In our experiments with multiple realistic dynamical systems, diffusion models outperform other neural operators. Furthermore, we demonstrate how the probabilistic diffusion model can elegantly deal with systems which are only partially identifiable, by producing samples corresponding to the different possible solutions. | 翻訳日:2024-05-14 18:18:14 公開日:2024-05-11 |
# 逐次分離可能なデータを用いた深部ReLUニューラルネットワークの解釈可能な大域最小化
Interpretable global minima of deep ReLU neural networks on sequentially separable data ( http://arxiv.org/abs/2405.07098v1 ) ライセンス: Link先を確認 | Thomas Chen, Patricia Muñoz Ewald, | (参考訳) ゼロ損失ニューラルネットワーク分類器を明示的に構築する。
重み行列とバイアスベクトルを累積パラメータで記述し、入力空間上で再帰的に作用するトランケーション写像を決定する。
検討されたトレーニングデータの構成は、
(i)各クラスに対応する十分に小さく、十分に分離されたクラスタ、及び
(ii) 逐次線形分離可能な同値類。
最良の場合、$\mathbb{R}^M$のデータの$Q$クラスの場合、大域最小化子は$Q(M+2)$パラメータで記述できる。
We explicitly construct zero loss neural network classifiers. We write the weight matrices and bias vectors in terms of cumulative parameters, which determine truncation maps acting recursively on input space. The configurations for the training data considered are (i) sufficiently small, well separated clusters corresponding to each class, and (ii) equivalence classes which are sequentially linearly separable. In the best case, for $Q$ classes of data in $\mathbb{R}^M$, global minimizers can be described with $Q(M+2)$ parameters. | 翻訳日:2024-05-14 18:18:14 公開日:2024-05-11 |
# ヘブライ語のホモグラフ分析における事前制約付き文脈言語モデルの影響
Do Pretrained Contextual Language Models Distinguish between Hebrew Homograph Analyses? ( http://arxiv.org/abs/2405.07099v1 ) ライセンス: Link先を確認 | Avi Shmidman, Cheyn Shmuel Shmidman, Dan Bareket, Moshe Koppel, Reut Tsarfaty, | (参考訳) 半形態的に豊かな言語(MRL)は、極端な単語の曖昧さによって特徴づけられる。
ほとんどの母音は標準文で省略されるため、多くの単語は複数の可能な分析が可能なホモグラフであり、それぞれが異なる発音と異なる形態的特性を持つ。
この曖昧さは、単語センスの曖昧さ(WSD)を超えており、トークンのセグメンテーションを複数のワード単位に含めることもある。
MRLに関する以前の研究は、ワードピースに基づく標準訓練済み言語モデル(PLM)は、これらの分析を区別するためにこれらのトークンの内部構造を十分に捉えていないと主張した。
ヘブライ語をケーススタディとして、ヘブライ語ホモグラフの曖昧さの程度を考察し、PLMを用いて分析する。
我々は,新しいヘブライ語ホモグラフチャレンジセットを用いて,文脈化ヘブライ語埋め込みの既存モデルを評価した。
実験の結果,現代ヘブライ語における文脈的埋め込みは,非コンテクスト的埋め込みよりも優れており,単語センスの曖昧さよりも,セグメンテーションや形態的特徴の曖昧化に最も有効であることが示された。
これらの埋め込みは,単語分割数が限られている場合に有効であり,2方向・3方向のあいまいさの方が4方向のあいまいさよりも効果的であることを示す。
埋め込みは、マスクまたはマスクされていないトークンとして計算されたとしても、バランスの取れた分布と歪んだ分布の両方のホモグラフに対して等しく有効であることを示す。
最後に、これらの埋め込みは、数ショットのセットアップと同様、広範囲に教師付きトレーニングを施したホモグラフの曖昧化に有効であることを示す。
Semitic morphologically-rich languages (MRLs) are characterized by extreme word ambiguity. Because most vowels are omitted in standard texts, many of the words are homographs with multiple possible analyses, each with a different pronunciation and different morphosyntactic properties. This ambiguity goes beyond word-sense disambiguation (WSD), and may include token segmentation into multiple word units. Previous research on MRLs claimed that standardly trained pre-trained language models (PLMs) based on word-pieces may not sufficiently capture the internal structure of such tokens in order to distinguish between these analyses. Taking Hebrew as a case study, we investigate the extent to which Hebrew homographs can be disambiguated and analyzed using PLMs. We evaluate all existing models for contextualized Hebrew embeddings on a novel Hebrew homograph challenge sets that we deliver. Our empirical results demonstrate that contemporary Hebrew contextualized embeddings outperform non-contextualized embeddings; and that they are most effective for disambiguating segmentation and morphosyntactic features, less so regarding pure word-sense disambiguation. We show that these embeddings are more effective when the number of word-piece splits is limited, and they are more effective for 2-way and 3-way ambiguities than for 4-way ambiguity. We show that the embeddings are equally effective for homographs of both balanced and skewed distributions, whether calculated as masked or unmasked tokens. Finally, we show that these embeddings are as effective for homograph disambiguation with extensive supervised training as with a few-shot setup. | 翻訳日:2024-05-14 18:18:14 公開日:2024-05-11 |
# ITA言語のための先進的な自然対話:LLamantino-3-ANITA
Advanced Natural-based interaction for the ITAlian language: LLaMAntino-3-ANITA ( http://arxiv.org/abs/2405.07101v1 ) ライセンス: Link先を確認 | Marco Polignano, Pierpaolo Basile, Giovanni Semeraro, | (参考訳) イタリア語の自然言語処理を進めるために,メタLLaMA-3モデル(LLaMAntino-3-ANITA-8B-Inst-DPO-ITA)をベースとした,最先端の大規模言語モデル(LLM)を導入する。
そこで本研究では,英語とイタリア語のデータセットにスーパーバイザード・ファイン・チューニング(SFT)技術を用いて,元の8Bパラメータのチューニングモデルを微調整した。
その結果、動的選好最適化(DPO)プロセスは、選好の調整、危険で不適切な回答の回避、バイアスと偏見の制限に使われてきた。
我々のモデルはQLoRAの効率を活用して、元のモデル重みの小さな部分でモデルを微調整し、その後、イタリアの言語構造に特化してモデルを適応させ、性能と計算効率の両方で大幅に改善する。
同時に、DPOはモデルの出力を洗練するために使われ、生成されたコンテンツが品質の答えと一致することを保証します。
SFTとQLoRAのパラメータ効率とDPOのユーザ中心最適化の相乗効果は、テキスト補完、ゼロショット分類、文脈理解など、様々なタスクに制限されない、堅牢なLLMをもたらす。
このモデルは、イタリア語と英語の標準ベンチマークよりも広く評価されており、優れた結果を示している。
このモデルはHuggingFaceハブ上で自由に利用可能で、使用例はGitHubリポジトリで確認できます。
https://huggingface.co/swap-uniba/LLaMAntino-3-ANITA-8B-Inst-DPO-ITA
In the pursuit of advancing natural language processing for the Italian language, we introduce a state-of-the-art Large Language Model (LLM) based on the novel Meta LLaMA-3 model: LLaMAntino-3-ANITA-8B-Inst-DPO-ITA. We fine-tuned the original 8B parameters instruction tuned model using the Supervised Fine-tuning (SFT) technique on the English and Italian language datasets in order to improve the original performance. Consequently, a Dynamic Preference Optimization (DPO) process has been used to align preferences, avoid dangerous and inappropriate answers, and limit biases and prejudices. Our model leverages the efficiency of QLoRA to fine-tune the model on a smaller portion of the original model weights and then adapt the model specifically for the Italian linguistic structure, achieving significant improvements in both performance and computational efficiency. Concurrently, DPO is employed to refine the model's output, ensuring that generated content aligns with quality answers. The synergy between SFT, QLoRA's parameter efficiency and DPO's user-centric optimization results in a robust LLM that excels in a variety of tasks, including but not limited to text completion, zero-shot classification, and contextual understanding. The model has been extensively evaluated over standard benchmarks for the Italian and English languages, showing outstanding results. The model is freely available over the HuggingFace hub and, examples of use can be found in our GitHub repository. https://huggingface.co/swap-uniba/LLaMAntino-3-ANITA-8B-Inst-DPO-ITA | 翻訳日:2024-05-14 18:18:14 公開日:2024-05-11 |
# 微調整による普遍的機械学習間ポテンシャルの系統的軟化の克服
Overcoming systematic softening in universal machine learning interatomic potentials by fine-tuning ( http://arxiv.org/abs/2405.07105v1 ) ライセンス: Link先を確認 | Bowen Deng, Yunyeong Choi, Peichen Zhong, Janosh Riebesell, Shashwat Anand, Zhuohan Li, KyuJung Jun, Kristin A. Persson, Gerbrand Ceder, | (参考訳) 機械学習原子間ポテンシャル(MLIP)は原子シミュレーションの新しいパラダイムを導入した。
近年、多様な素材データセットで事前訓練されたユニバーサルMLIP(uMLIP)が出現し、使用可能なユニバーサルフォースフィールドと、下流機械学習の強化のための堅牢な基盤の両方の機会を提供している。
しかし、分布外の複雑な原子環境への外挿性能は未だ不明である。
本研究では,M3GNet,CHGNet,MACE-MP-0の3つのUMLIPにおける一貫したポテンシャルエネルギー表面 (PES) 軟化効果を明らかにする。
PES軟化挙動は,uMLIP事前学習データセットにおける近似原子配列のバイアスサンプリングから導かれるPSS曲率の系統的下降誤差から導かれる。
我々は,PSS軟化問題を1つの追加データポイントで微調整することで,効果的に修正できることを実証した。
以上の結果より, uMLIP エラーのかなりの部分が高度に体系的であり, 効率よく修正可能であることが示唆された。
この結果は、基本MLIPでよく見られるデータ効率の良い微調整性能の向上を合理化する。
次世代MLIPのためのPESサンプリングを改良した包括的資料データセットの重要性を論じる。
Machine learning interatomic potentials (MLIPs) have introduced a new paradigm for atomic simulations. Recent advancements have seen the emergence of universal MLIPs (uMLIPs) that are pre-trained on diverse materials datasets, providing opportunities for both ready-to-use universal force fields and robust foundations for downstream machine learning refinements. However, their performance in extrapolating to out-of-distribution complex atomic environments remains unclear. In this study, we highlight a consistent potential energy surface (PES) softening effect in three uMLIPs: M3GNet, CHGNet, and MACE-MP-0, which is characterized by energy and force under-prediction in a series of atomic-modeling benchmarks including surfaces, defects, solid-solution energetics, phonon vibration modes, ion migration barriers, and general high-energy states. We find that the PES softening behavior originates from a systematic underprediction error of the PES curvature, which derives from the biased sampling of near-equilibrium atomic arrangements in uMLIP pre-training datasets. We demonstrate that the PES softening issue can be effectively rectified by fine-tuning with a single additional data point. Our findings suggest that a considerable fraction of uMLIP errors are highly systematic, and can therefore be efficiently corrected. This result rationalizes the data-efficient fine-tuning performance boost commonly observed with foundational MLIPs. We argue for the importance of a comprehensive materials dataset with improved PES sampling for next-generation foundational MLIPs. | 翻訳日:2024-05-14 18:18:14 公開日:2024-05-11 |
# コクレーティブ改良劇場における対話型LLMの設計と評価
Designing and Evaluating Dialogue LLMs for Co-Creative Improvised Theatre ( http://arxiv.org/abs/2405.07111v1 ) ライセンス: Link先を確認 | Boyd Branch, Piotr Mirowski, Kory Mathewson, Sophia Ppali, Alexandra Covaci, | (参考訳) 社会ロボティクスの研究者は、多人数で訓練された会話エージェントに興味を抱いている。
実世界評価の需要が高まり,エディンバラ・フェスティバル・フランジで1ヶ月のライブショーに展開されたLarge Language Models (LLMs) について紹介した。
本研究は,プロの舞台で会話エージェントと共作する人間インプロバイザについて検討する。
ステージ上では、オーディエンスとパフォーマーの両方のAI経験から包括的な洞察を提供する。
我々のHuman-in-the-loop手法は、これらのLCMがコンテキスト関連応答を生成する際の課題を浮き彫りにして、ユーザインタフェースの重要な役割を強調します。
聴衆からのフィードバックは、AI駆動のライブエンターテイメント、直接の人間とAIのインタラクション、AIの会話能力と創造性支援ツールとしてのユーティリティに対するさまざまな期待の高まりを示している。
人間のパフォーマーは、膨大な熱意、さまざまな満足感を示し、進化する世論は、芸術におけるAIの役割に関する様々な感情を強調している。
Social robotics researchers are increasingly interested in multi-party trained conversational agents. With a growing demand for real-world evaluations, our study presents Large Language Models (LLMs) deployed in a month-long live show at the Edinburgh Festival Fringe. This case study investigates human improvisers co-creating with conversational agents in a professional theatre setting. We explore the technical capabilities and constraints of on-the-spot multi-party dialogue, providing comprehensive insights from both audience and performer experiences with AI on stage. Our human-in-the-loop methodology underlines the challenges of these LLMs in generating context-relevant responses, stressing the user interface's crucial role. Audience feedback indicates an evolving interest for AI-driven live entertainment, direct human-AI interaction, and a diverse range of expectations about AI's conversational competence and utility as a creativity support tool. Human performers express immense enthusiasm, varied satisfaction, and the evolving public opinion highlights mixed emotions about AI's role in arts. | 翻訳日:2024-05-14 18:18:14 公開日:2024-05-11 |
# 正規化ガウスカーネルマルチビューk平均クラスタリング
Rectified Gaussian kernel multi-view k-means clustering ( http://arxiv.org/abs/2405.05619v2 ) ライセンス: Link先を確認 | Kristina P. Sinaga, | (参考訳) 本稿では,マルチビューデータを扱うために,MVKM(Multi-view k-means)アルゴリズムの2つの新しい変種を示す。
一般的な考え方は、$h$-th view data point $x_i^h$ と $h$-th view clustercenter $a_k^h$ の距離を、セントロイドベースの異なるアプローチで概説することである。
提案手法は他の手法とは異なり,ガウスカーネルの空間におけるユークリッドノルム(英語版)を用いて類似性を計算することで,マルチビューデータ(MVKM-ED)を学習する。
安定化パラメータ$p$とカーネル係数$\beta^h$を同時に調整することにより、ユークリッドノルムにおけるガウスカーネルベース重み付き距離の圧縮はMVKM-EDの感度を低下させる。
そこで本稿では,ガウスカーネルマルチビューk-means (GKMVKM) クラスタリングアルゴリズムについて述べる。
5つの実世界のマルチビューデータの数値評価は,提案したMVKM-EDおよびGKMVKMアプローチの堅牢性と効率を示す。
In this paper, we show two new variants of multi-view k-means (MVKM) algorithms to address multi-view data. The general idea is to outline the distance between $h$-th view data points $x_i^h$ and $h$-th view cluster centers $a_k^h$ in a different manner of centroid-based approach. Unlike other methods, our proposed methods learn the multi-view data by calculating the similarity using Euclidean norm in the space of Gaussian-kernel, namely as multi-view k-means with exponent distance (MVKM-ED). By simultaneously aligning the stabilizer parameter $p$ and kernel coefficients $\beta^h$, the compression of Gaussian-kernel based weighted distance in Euclidean norm reduce the sensitivity of MVKM-ED. To this end, this paper designated as Gaussian-kernel multi-view k-means (GKMVKM) clustering algorithm. Numerical evaluation of five real-world multi-view data demonstrates the robustness and efficiency of our proposed MVKM-ED and GKMVKM approaches. | 翻訳日:2024-05-14 12:26:59 公開日:2024-05-11 |
# 有理三角量子ビリヤードの中間スペクトル統計
Intermediate spectral statistics of rational triangular quantum billiards ( http://arxiv.org/abs/2405.05783v2 ) ライセンス: Link先を確認 | Črt Lozej, Eugene Bogomolny, | (参考訳) 角が$\pi$の有理倍数である三角形ビリヤードは、古典的および量子的性質を持つ擬可積分モデルの最も単純な例の1つである。
我々は,8つの量化有理三角形,6つの直角ベッチ三角形群と2つの斜角有理三角形のスペクトル統計の広範な数値的研究を行う。
三角形ごとに最大100万個のエネルギーレベルの大規模なスペクトルサンプルが計算され、そのスペクトル統計を精度良く決定することができる。
それらは中間型であり、レベル反発のようなカオス系や、レベル間隔分布の指数的テールのような可積分系といくつかの特徴を共有することが示されている。
中間スペクトル統計学のもう一つの特徴は、レベル圧縮可能性の有限値である。
レベル間隔分布などの短距離統計と、数値分散やスペクトル形状因子などの長距離統計を詳細に分析した。
数値データとガンマ分布モデルとの良好な一致を明らかにした。
Triangular billiards whose angles are rational multiples of $\pi$ are one of the simplest examples of pseudo-integrable models with intriguing classical and quantum properties. We perform an extensive numerical study of spectral statistics of eight quantized rational triangles, six belonging to the family of right-angled Veech triangles and two obtuse rational triangles. Large spectral samples of up to one million energy levels were calculated for each triangle which permits to determine their spectral statistics with great accuracy. It is demonstrated that they are of the intermediate type, sharing some features with chaotic systems, like level repulsion and some with integrable systems, like exponential tails of the level spacing distributions. Another distinctive feature of intermediate spectral statistics is a finite value of the level compressibility. The short range statistics such as the level spacing distributions, and long-range statistics such as the number variance and spectral form factors were analyzed in detail. An excellent agreement between the numerical data and the model of gamma distributions is revealed. | 翻訳日:2024-05-14 12:26:58 公開日:2024-05-11 |
# シンメトリ重畳モデルによるシーンテキスト認識のための自己教師付き事前学習
Self-Supervised Pre-training with Symmetric Superimposition Modeling for Scene Text Recognition ( http://arxiv.org/abs/2405.05841v2 ) ライセンス: Link先を確認 | Zuan Gao, Yuxin Wang, Yadong Qu, Boqiang Zhang, Zixiao Wang, Jianjun Xu, Hongtao Xie, | (参考訳) テキスト認識において、自己教師付き事前学習は、拡張的な注釈付き実データへの依存を減らすための良い解決策として現れる。
これまでの研究は主に、マスク画像モデリングやシーケンスコントラスト学習を活用して、局所的な視覚表現に焦点を当ててきた。
しかし,テキスト認識にとって重要なテキスト画像における言語情報のモデル化は省略されている。
視覚空間における局所的特徴と言語情報を同時に捉えるために,SSM(Symmetric Superimposition Modeling)を提案する。
SSMの目的は、対称的に重畳された入力から方向特定画素と特徴信号を再構成することである。
具体的には、元の画像を逆ビューで追加し、対称的に重畳された入力を生成する。
画素レベルでは、原画像と逆画像の再構成を行い、文字の形状やテクスチャレベルの言語的文脈を捉える。
特徴レベルでは、意味レベルの言語文脈と局所的文字識別をモデル化するために、異なる拡張で同一の原画像と逆画像の特徴を再構築する。
私たちのデザインでは、キャラクタの形状と言語規則を混乱させます。
これにより、視覚的テクスチャや特徴的意味論の観点から、文字の形状や言語情報の理解が容易になる。
様々なテキスト認識ベンチマークの実験は、SSMの有効性と一般性を示し、4.1%の平均的なパフォーマンス向上と86.6%の新しい最先端の平均単語精度をUnion14Mベンチマークで示した。
コードはhttps://github.com/FaltingsA/SSMで入手できる。
In text recognition, self-supervised pre-training emerges as a good solution to reduce dependence on expansive annotated real data. Previous studies primarily focus on local visual representation by leveraging mask image modeling or sequence contrastive learning. However, they omit modeling the linguistic information in text images, which is crucial for recognizing text. To simultaneously capture local character features and linguistic information in visual space, we propose Symmetric Superimposition Modeling (SSM). The objective of SSM is to reconstruct the direction-specific pixel and feature signals from the symmetrically superimposed input. Specifically, we add the original image with its inverted views to create the symmetrically superimposed inputs. At the pixel level, we reconstruct the original and inverted images to capture character shapes and texture-level linguistic context. At the feature level, we reconstruct the feature of the same original image and inverted image with different augmentations to model the semantic-level linguistic context and the local character discrimination. In our design, we disrupt the character shape and linguistic rules. Consequently, the dual-level reconstruction facilitates understanding character shapes and linguistic information from the perspective of visual texture and feature semantics. Experiments on various text recognition benchmarks demonstrate the effectiveness and generality of SSM, with 4.1% average performance gains and 86.6% new state-of-the-art average word accuracy on Union14M benchmarks. The code is available at https://github.com/FaltingsA/SSM. | 翻訳日:2024-05-14 12:26:58 公開日:2024-05-11 |